一、人工智能的第一个法律:版权
本周四,欧洲议会成员就《人工智能法(The AI Act)》提案达成临时政治协议,预计将在5月11日进行关键委员会投票,6月中旬进行全体投票。如果该法案获得通过,将成为是全世界第一部综合性的人工智能法律。
据Euractive报道,4月27日,欧洲议会成员(MEP)就《人工智能法案》达成提案,该法案由欧盟于21年4月开始起草,目前仍在完善。此次提案对生成式AI模型提出了更严格的监管要求,包括版权披露、公平竞争、保障合法权益等。
这个法案包括:
1)版权披露:生成式AI模型开发商将被要求披露在构建其系统时使用的任何版权材料,且需要在审查数据来源的可持续性、可能的偏见等方面,采取数据治理措施。
2)公平竞争:禁止生成式AI模型提供方单方面强加给中小企业和初创企业的不公平合同义务,以保障中小企业和初创企业的利益,无论是API方式还是训练模型转移的方式。
3)保障合法权利:生成式AI模型应保护隐私,也单独提出禁止在执法、边境管理、工作场所和教育领域,使用情绪识别类人工智能软件;此外,要求模型遵守的原则包括人力代理和监督、技术稳健性和安全性、透明度、多样性、不歧视和公平、尊重言论自由等。
4)降低风险:生成式AI模型必须在欧盟数据库中注册,在模型发布前需要在独立专家的参与下,测试减轻对健康、安全、基本权利等可预见风险,且在其整个生命周期中保持适当的性能、可纠正性、安全性等。
本次《人工智能法案》的提案中,最值得关注的要求在于“要求披露模型在构建其系统时使用的任何版权材料”,这是对数据/版权供应方在生成式AI产业链地位的进一步肯定,版权方的权利也将在未来获得法律的保护。
1)地位得到法律确认和保护:生成式AI会从公开网站或专业数据库获取大量素材作为训练数据,素材的提供方理应当享有AI生成内容所带来的收益。但因素材来源庞杂、追溯确权困难、模型方版权保护意识尚未形成等原因,模型生成的内容并不会披露所依据素材的来源,容易引发侵权问题。此前全球最大的专业图片库公司Getty Images就起诉Stability AI从网站上窃取了数百万张图片。
欧盟《人工智能法案》提案中的上述要求,意味着大模型调用训练素材的行为将得到监督,数据和版权方的权益将得到保护,他们也从而获得主张更多权利的机会。
2)数据资源商业化有望得到法律支持:当数据供应公司、个人创作者等素材供应方,以单独个体被大模型公开披露时,其可在法律的保护下,向大模型寻求对生成内容收益的分成,实现数据资源变现。
结合欧盟本次《人工智能法案》提案、Reddit等互联网平台对大模型公司调用API收费,及网信办《生成式AI服务管理办法(意见征求稿)》,可以看到从政策法规到实际产业界的探索,在人工智能大模型火爆的当下,数据及版权保护成为重要议题。大模型为具有版权的数据资源进行付费,将成为生成式AI的产业趋势。具有海量优质版权、数据资源的公司将充分受益。从产业优先级来看,基于大语言模型训练,文字类版权将率先受益。后续则为图片、视频类版权。
二、高质量数据龙头公司有哪些?
以下是东方证券总结的行业龙头。
目前,上市公司中高质量数据的龙头公司主要有下面四家(当然,也有一些专业性的数据公司,但是能够称得上“范围广、数量全、质量高”的数据公司,只有这四家。)
1.中国科传:高质量学术数据。公司在版权方面核心资产是参股的公司万方数据,万方数据是业内与中国知网齐名的专业学术数据库。(中国知网曾因明星毕业论文抄袭被爆年入10亿元、毛利率近60%),不过万方数据可没这么大的营收,万方的估值在2021年只有7亿。出版方面,目前公司形成了以科学(S)、技术(T)、医学(M)、教育(E)、人文社科(H)为主要出版领域的业务架构,公司出版的图书主要是学术专著和一些高等院校教材和中小学教辅,比较少涉及文学类图书,在大众出版领域主要也是围绕科学普及开展相关出版业务。
2.中国出版:高质量人文类数据和资源。公司拥有优秀的出版资产,旗下包括商务印书馆、人民文学出版社、中华书局、中国大百科全书出版社、中国美术出版总社、人民音乐出版社、生活·读书·新知三联书店等全球数一数二的
3.视觉中国:高质量图片数据,全球最大的图片数据公司之一。公司是一家图片超市,把创作者的作品放入超市的柜架,等客户来选购,获得收入后与创作者分成。公司现阶段提供 4 亿张图片、3,000 万条视频和 35 万首音乐等可销售的各类素材,是全球最大的同类数字内容平台之一。公司积极开展全球化布局,于 2016 年收购全球知名图片库 Corbis 资产;2018 年收购并经营全球领先的摄影师社区 500px。目前,公司服务超过全球195 个国家的内容创作者和传媒出版、品牌企业、创意机构等客户;全球签约供稿人超过 50 万名,并与 Getty Images 等国内外 280 余家专业版权内容机构建立紧密合作关系。
4.知乎-W:高质量问答数据:。知乎是目前国内最大的知识社交媒体平台,注册用户达到5亿左右,日活跃用户4000万,月浏览量180亿,平均访问时长不低于60分钟。
三、视觉中国存在一定程度的低估
以下内容来自天风证券,本人觉得还是非常理性的。
公司拥有众多优质版权内容,根据2022半年报,其中有超过2/3的高水准独家或自有内容,可提供4亿张图片、3,000万条视频和35万首音乐等可销售的各类素材,是全球最大的同类数字版权内容平台之一。
外部合作方面,2023年1月公司与百度达成战略合作,将与百度旗下的AI作画平台文心一格在创作者赋能和版权保护等方面展开多项合作,共探AIGC内容产业发展方向;
内部创新方面,2023年3月公司旗下VCG.com网站推出公司首个AIGC应用产品——由AI驱动的AI智能搜索(Beta版)。AI智能搜索基于多模态、自然语言理解以及知识图谱等人工智能技术,用户可以通过“关键词”或“自然语言”的方式进行搜索,AI智能搜索能准确理解用户的搜索需求,找到对应图片。并且AI智能搜索可以适配多个使用场景,为新闻稿件、创意文案、新媒体推文、教师课件等内容高效配图,快速、准确地定位用户所需素材,提高用户体验与搜索满意度;
未来战略方面,公司将推出“AI搜索+AI生成”双服务模式,当用户在搜索不到合适内容时,平台将提供AI内容生成服务,帮助用户在搜索的图片基础上运用AIGC生成工具进行内容增减、风格转换、内容合成等创意调整,也可以输入推荐提示词获得AI生成的内容,以满足用户高效完成创意需求。
全球内容生态+ToB端数字版权交易+ToC端数字艺术交易,形成业务闭环
内容生态上,公司通过全球摄影师社区(500px)、设计师社区(爱视觉ishijue.com)拥有全球签约创作者超过50万名,服务超过全球195个国家的内容创作者和传媒出版、品牌企业、创意机构等客户,并与Getty Images等国内外近300家专业版权内容机构建立紧密合作关系;
数字版权交易上,公司通过“视觉+”战略进一步巩固在大中型KA客户的服务广度与深度,同时将扩大在中小企业、长尾市场占有率作为长期重点战略。2022年上半年公司数字版权交易平台直接签约客户数超过14,000家,同比增长6%;其中年度销售额10万元以上的长协客户续约率继续保持在80%以上。
目前高质量数据的四家公司中,除了视觉中国之外都出现了暴涨的走势,即使在港股的知乎一度也出现了将近200%的涨幅,作为全面拥抱AI,AI相关业务已经落地的公司,视觉中国存在补涨的需要。