AIGC风控前瞻：给数据“打上水印” 全链路多维度“排雷”-韭研公社

登录注册

AIGC风控前瞻：给数据“打上水印” 全链路多维度“排雷”

题材前瞻

2023-07-13 09:47:49

刚刚落幕的世界人工智能大会（WAIC 2023)在上海掀起了一股AI飓风。AIGC、大模型、算力、芯片……与会者热烈地讨论着一个新时代的开始。然而，在AIGC将如何改变未来的喧嚣背后，是更多对人工智能风险应有的冷静。

　　一系列举措正在紧锣密鼓地出台。

　　当地时间6月14日，欧洲议会以499票赞成、28票反对和93票弃权，高票通过了《人工智能法案》（AI Act）谈判授权草案，草案对通用人工智能（general purpose AI）的透明度提出了明确要求。

　　6月20日，中国首批境内深度合成服务算法备案清单出炉，百度、阿里巴巴、腾讯、字节跳动、美团等26家公司、共计41个算法榜上有名，这个清单被认为是4月11日国家互联网信息办公室发布的《生成式人工智能服务管理办法（征求意见稿）》（下称《办法》）的试水。

　　无论是越来越逼真的换脸和换声，还是隐藏于各家语言大模型中的“偏见”，安全被认为是进入AI新世纪之前必须先设置的保险杠。

AIGC风控必须全链路

　　“AIGC带来丰富创造力的同时，也带了全新的内容安全挑战。”腾讯安全内容风控产品经理李镐泽日前在接受包括《IT时报》记者在内的媒体采访时表示，当大模型逐渐落地时，一定要考虑全链路风控。

　　相对过去以PGC、UGC为主的内容，AIGC时代的内容安全内涵与外延均有显著变化。从训练到生成到事后，处处都可能有“雷点”。

　　高质量数据是确保“黑盒子”大模型输出效果的关键。中国科学院自动化研究所研究员、人工智能伦理与治理中心主任曾毅认为，基于人类训练的AI可以习得社会的偏见、仇恨，甚至是歧视，人工智能技术并非中立。

　　这意味着，在内容生成阶段，涉及个人隐私、虚假、违背伦理、不适内容、未成年人等违规内容都必须被“剔除”。

　　目前公开测试通用大模型中，并无厂商主动对外公布自己的训练数据来源，基本公认的来源有三个：网络爬虫、公共语料库以及人工标注的数据。如果不对数据源进行初审，便很容易在结果中涉嫌违规。

　　比如，如果已被泄露的明星个人数据库在某个网站上被爬虫抓到，并进入大模型训练库，那很可能出现的场景是，当被提问“****的手机号码是多少？”时，大模型直接给出答案。

　　“训练大模型的厂商，要严控构建模型数据源的真实、无害和可用性，包括个人隐私的脱敏、不涉及相关偏见以及本身内容合法和规范等等。”腾讯安全天御研发工程师周维聪告诉记者。

　　内容生成阶段的风险也同样存在。前段时间出现的换脸、假声纹便属于此类，加上ChatGPT“一本正经胡说八道”的偶发症状，这个阶段的安全风险最为集中。此外，产品上线后，用户也一定要时刻关注舆情，关注大模型生成的内容是否违规，是否引发舆论关注，风控的那根“弦”要始终绷紧。

　　6月19日，腾讯云正式公布MaaS（Model-as-a-Service）能力全景图，并表示，依托腾讯二十余年的安全经验和天御大数据能力，提供AIGC全链路内容安全解决方案，确保大模型可信、可靠、可用。

　　据了解，腾讯安全AIGC全链路内容安全解决方案，提供包含审校服务、安全专家服务、机器审核服务、版权保护服务四大能力板块，覆盖AIGC类应用从模型训练到内容生成到事后运营全过程的内容安全建设。　　

AIGC生成内容或需标示

　　 WAIC上，中国信通院、上海人工智能实验室、武汉大学、蚂蚁集团等多家单位共同发起《AIGC可信倡议》，提出构建AIGC可信发展的全球治理合作框架，采用安全可信的数据资源、技术框架、计算方法和软件平台等全面提升AIGC可信工程化能力，最大限度确保生成式AI安全、透明、可释。

　　对于AIGC将带来怎样的未来，从业者无法预知，只能通过自律控制“魔法”，而不久的将来，法律将正式落地。

　　《人工智能法案》新增了对通用人工智能的透明度要求，比如大模型训练时如果使用了受版权保护的数据，需要公开训练数据的详细信息，而且基于基础模型的生成式AI必须要对生成的内容进行标注，帮助用户区分深度伪造和真实信息。

　　《生成式人工智能服务管理办法（征求意见稿）》也提出了类似的要求，一方面，提供者应当对生成式人工智能产品的预训练数据、优化训练数据来源的合法性负责，另一方面，提供者应当按照《互联网信息服务深度合成管理规定》对生成的图片、视频等内容进行标识。

　　李镐泽认为，未来可能要从技术和监管多维度实现AIGC的透明化，比如通过对数据来源的强监管，确保输出内容的生成标示，“此外也可以通过数字水印等技术手段，确保数据可溯源。”

　　目前，针对AIGC引发的版权保护难题上，腾讯安全建立了版权资产统一ID库，助力企业进行版权原创性筛查；此外，腾讯安全还提供“检测、比对、维权”的全链路版权保护服务，并在AIGC内容安全领域有多个场景实践落地，为文生文、文生图、医疗级视频内容、长小说文本等类型企业提供内容安全服务。

汉邦高科（300449.SZ）主要从事智能安防、音视频监测和数字水印业务，公司处于安防行业。公司表示，数字水印最初是为了保护版权而生，随着技术的发展成熟及数字经济时代的来临，其应用已经拓展到更为广泛的数据安全保障领域。

据介绍，公司自2007年起开始数字水印算法的研究，汉邦高科自称已掌握数字水印的运用原理及核心算法，并形成了基于视频、音频、图片等比较完善的数字水印应用技术体系，掌握数字水印核心技术。数字水印技术在盗版追溯、媒资管理、安全保护、防伪验真等方面有众多衍生应用，应用方式包含但不限于软件系统、硬件集成、芯片嵌入及云端服务等，产业应用范围广阔。

此外，公司称部分产品已获得美国电影协会、信息产业部、国家广电总局规划院认证，应用端已获得国家广电总局、CCTV及地方台、电影技术质量检测所等客户认可。

公司数字水印技术核心产品Viewmark除了具备水印技术本身的安全性、隐蔽性、鲁棒性、盲检测、可证明等特性之外，还具有水印容量大、对视频质量影响低和抗攻击强的特点。公司数字水印产品两次荣获省部级一等奖并通过了国防科学成果鉴定，获得了美国VSTL认证和首批通过了China DRM水印安全评估。

Viewmark水印产品已经应用于国家广电总局、中央及地方电视台、电影技术质量检测所等单位，为内容安全和版权保护提供了基础的技术支撑，公司自主产权的数字水印技术处于国际领先水平。

作者利益披露：转载，不作为证券推荐或投资建议，旨在提供更多信息，作者不保证其内容准确性。

声明：文章观点来自网友，仅为作者个人研究意见，不代表韭研公社观点及立场，站内所有文章均不构成投资建议，请投资者注意风险，独立审慎决策。

汉邦高科

工分