登录注册
Gartner:2024~2030年60%至几乎所有的大模型数据都是“合成数据”
观风听雨
全梭哈的半棵韭菜
2023-03-08 16:29:55

一、监管对大模型数据的态度

二、ChatGPT类大模型训练数据的托管与治理痛点

三、合成数据能高效且合规地解决前面的痛点,并且保护隐私

四、2024年大模型训练数据中将有60%都是合成数据,2030年绝大多数都是

五、汉仪股份的先发优势


核心观点1:人M网那个AI数据筛查,是标,而“合成数据”才是治本,才是郭嘉解决模型数据来源风险的终极解决手段。


核心观点2:无论深挖多少运营商数据、广电直播带货数据的潜能,都远远不够模型训练所用,而且有隐私风险,而到2024~2030年,模型训练的主要数据都将是“合成数据”。




二、ChatGPT类大模型训练数据的托管与治理痛点:巧妇难为无米之炊

 

有研究预测,按照目前的发展速度,到2026年ChatGPT类大模型的训练将耗尽互联网上的可用文本数据,届时将没有新的训练数据可供使用。因此,算力瓶颈之外,训练数据将成为大模型产业化的最大掣肘之一。从更深层次考虑,大模型在训练数据方面还存在各种治理问题,比如数据采集标注费时费力成本高、数据质量较难保障、数据多样化不足难以覆盖长尾和边缘案例、特定数据在获取与使用分享等方面存在隐私保护、数据偏见等问题。

  OpenAI虽没有直接公开ChatGPT的相关训练数据来源和细节,但可以从近些年业界公布过的其他大模型(如DeepMind发布的2800亿参数大模型Gopher)的训练数据推测出ChatGPT的训练数据来源

   总的来看,大模型的训练数据主要来自于维基百科(Wikipedia)、书籍(Books)、期刊(Journals)、Reddit社交新闻站点、Common Crawl和其他数据集。

  数据的质量对于大模型的训练至关重要。在模型训练之前,通常依赖专业数据团队对数据集进行预处理。这些预处理操作通常包括:去重,即去除重复的文本数据,一般以句子为单位;文本正则化或标准化,如全角字符转半角字符,繁体中文转简体中文等;文本清洗,即剔除超文本标记语言(html)或者表情符号(emoji)等非文本内容,并对标点符号进行过滤和统一;分词,即将句子拆分成单个的词;词的清洗,如去除停用词等;词的正则化或标准化,如统一数字的写法等。经过以上预处理流程,通常可以得到质量相对较高的文本数据,防止数据中的噪声对模型的训练产生不良影响,有助于后续模型的高效训练。

  除了上述常规操作之外,在一些特定的处理任务中,数据团队有可能还会根据不同目的对模型训练数据进行过滤。比如,若要构建一个金融领域的知识系统,那么最好把大模型训练数据中与金融领域相关的数据筛选出来,这样可以提升模型生成的文本与金融领域的匹配程度,使模型的输出看起来“更专业”。


三、合成数据能高效且合规地解决前面的痛点,并且保护隐私


当前,大模型的训练严重依赖现有的互联网公开文本数据。如果下一代大模型的参数达到万亿级别以上的话,数据短缺的问题将成为训练瓶颈。对此,合成数据将是一种有效的解决方案。

  合成数据是计算机模拟技术或算法创建生成的自标注信息,能够在数学上或统计学上反映原始数据的属性,因此可以作为原始数据的替代品来训练、测试、验证大模型。合成数据可分为三类:表格数据和结构化数据;图像、视频、语音等媒体数据;文本数据。在大模型的训练开发上,合成数据相比原始数据,可以发挥同样甚至更好的作用,实现更廉价、更高效的大模型训练、测试和验证数据供给。ChatGPT类面向终端用户的应用只是大模型落地的开始,而产业互联网领域的应用空间更为广阔,合成数据可以解决ChatGPT类大模型的潜在数据瓶颈,推动科研和产业的进一步发展。

  合成数据可以精确地复制原始数据集的统计特征,但又与原始数据不存在任何关联,所以实际应用过程中的效果强于传统的脱敏数据,便于在更大范围内分享和使用。合成数据创造的新样本具有原始数据的性质,甚至可以通过深度学习算法合成原始数据中没有的罕见样本。合成数据的产业价值主要体现在以下几个方面:实现数据增强和数据模拟,解决数据匮乏、数据质量等问题;有效解决数据隐私保护和数据安全问题,这对于金融、医疗等领域尤为重要;确保数据多样性,纠正历史数据中的偏见,消除算法歧视;应对罕见案例,创建现实中难以采集的数据场景,确保大模型输出结果的准确性。


四、2024年大模型训练数据中将有60%都是合成数据,2030年绝大多数都是


  全球IT研究与咨询机构Gartner预测,到2024年用于训练大模型的数据中有60%将是合成数据,到2030年大模型使用的绝大部分数据将由人工智能合成。《麻省理工科技评论》(MIT Technology Review)将大模型合成数据列为2022年十大突破性技术之一,称其有望解决人工智能领域的“数据鸿沟”问题。可以预见,合成数据作为数据要素市场的新增量,在具备产业价值的同时,也可以解决人工智能和数字经济的数据供给问题。


五、汉仪股份的先发优势:


查询“合成数据”关键字,汉仪股份拥有专门以生成“合成数据”为目的的主要技术。



2023年3月8日盘后,董秘回应公司是郭嘉新闻出版总署的中华字库工程承包方,是国家级字体设计和字库开发的领先者。


 合成数据标的还有 海天瑞声和浩瀚深度,不过从位置角度,推荐汉仪。

就酱,


 

作者在2023-03-08 22:45:20修改文章
作者利益披露:原创,不作为证券推荐或投资建议,截至发文时,作者持有相关标的,下一个交易日内可能择机卖出。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
汉仪股份
S
值得买
S
汤姆猫
S
人民网
S
浩瀚深度
工分
14.89
转发
收藏
投诉
复制链接
分享到微信
有用 16
打赏作者
无用
真知无价,用钱说话
0个人打赏
同时转发
评论(8)
只看楼主
热度排序
最新发布
最新互动
  • 只看TA
    2023-03-09 10:33
    山水比德没有把握好
    0
    0
    打赏
    回复
    投诉
    于2023-03-09 11:17:55更新
    查看1条回复
  • 只看TA
    2023-04-02 18:48
    666666
    0
    0
    打赏
    回复
    投诉
  • 只看TA
    2023-03-09 15:07
    谢谢分享。
    0
    0
    打赏
    回复
    投诉
  • 只看TA
    2023-03-09 09:06
    感谢分享
    0
    0
    打赏
    回复
    投诉
  • 20厘米小韭菜
    追涨杀跌的剁手专业户
    只看TA
    2023-03-09 01:51
    好票
    0
    0
    打赏
    回复
    投诉
  • 深圳炒家
    满仓搞的散户
    只看TA
    2023-03-08 21:33
    好票,低位+次新+合成数据,明天干
    0
    0
    打赏
    回复
    投诉
  • 只看TA
    2023-03-08 16:31
    谢谢分享
    0
    0
    打赏
    回复
    投诉
  • 1
前往