Gartner:2024~2030年60%至几乎所有的大模型数据都是“合成数据”-韭研公社

登录注册

Gartner:2024~2030年60%至几乎所有的大模型数据都是“合成数据”

观风听雨

全梭哈的半棵韭菜

2023-03-08 16:29:55

一、监管对大模型数据的态度

二、ChatGPT类大模型训练数据的托管与治理痛点

三、合成数据能高效且合规地解决前面的痛点，并且保护隐私

四、2024年大模型训练数据中将有60%都是合成数据，2030年绝大多数都是

五、汉仪股份的先发优势

核心观点1：人M网那个AI数据筛查，是标，而“合成数据”才是治本，才是郭嘉解决模型数据来源风险的终极解决手段。

核心观点2：无论深挖多少运营商数据、广电直播带货数据的潜能，都远远不够模型训练所用，而且有隐私风险，而到2024~2030年，模型训练的主要数据都将是“合成数据”。

二、ChatGPT类大模型训练数据的托管与治理痛点：巧妇难为无米之炊

有研究预测，按照目前的发展速度，到2026年ChatGPT类大模型的训练将耗尽互联网上的可用文本数据，届时将没有新的训练数据可供使用。因此，算力瓶颈之外，训练数据将成为大模型产业化的最大掣肘之一。从更深层次考虑，大模型在训练数据方面还存在各种治理问题，比如数据采集标注费时费力成本高、数据质量较难保障、数据多样化不足难以覆盖长尾和边缘案例、特定数据在获取与使用分享等方面存在隐私保护、数据偏见等问题。

　　OpenAI虽没有直接公开ChatGPT的相关训练数据来源和细节，但可以从近些年业界公布过的其他大模型(如DeepMind发布的2800亿参数大模型Gopher)的训练数据推测出ChatGPT的训练数据来源

　　总的来看，大模型的训练数据主要来自于维基百科(Wikipedia)、书籍(Books)、期刊(Journals)、Reddit社交新闻站点、Common Crawl和其他数据集。

　　数据的质量对于大模型的训练至关重要。在模型训练之前，通常依赖专业数据团队对数据集进行预处理。这些预处理操作通常包括：去重，即去除重复的文本数据，一般以句子为单位；文本正则化或标准化，如全角字符转半角字符，繁体中文转简体中文等；文本清洗，即剔除超文本标记语言(html)或者表情符号(emoji)等非文本内容，并对标点符号进行过滤和统一；分词，即将句子拆分成单个的词；词的清洗，如去除停用词等；词的正则化或标准化，如统一数字的写法等。经过以上预处理流程，通常可以得到质量相对较高的文本数据，防止数据中的噪声对模型的训练产生不良影响，有助于后续模型的高效训练。

　　除了上述常规操作之外，在一些特定的处理任务中，数据团队有可能还会根据不同目的对模型训练数据进行过滤。比如，若要构建一个金融领域的知识系统，那么最好把大模型训练数据中与金融领域相关的数据筛选出来，这样可以提升模型生成的文本与金融领域的匹配程度，使模型的输出看起来“更专业”。

三、合成数据能高效且合规地解决前面的痛点，并且保护隐私

当前，大模型的训练严重依赖现有的互联网公开文本数据。如果下一代大模型的参数达到万亿级别以上的话，数据短缺的问题将成为训练瓶颈。对此，合成数据将是一种有效的解决方案。

　　合成数据是计算机模拟技术或算法创建生成的自标注信息，能够在数学上或统计学上反映原始数据的属性，因此可以作为原始数据的替代品来训练、测试、验证大模型。合成数据可分为三类：表格数据和结构化数据；图像、视频、语音等媒体数据；文本数据。在大模型的训练开发上，合成数据相比原始数据，可以发挥同样甚至更好的作用，实现更廉价、更高效的大模型训练、测试和验证数据供给。ChatGPT类面向终端用户的应用只是大模型落地的开始，而产业互联网领域的应用空间更为广阔，合成数据可以解决ChatGPT类大模型的潜在数据瓶颈，推动科研和产业的进一步发展。

　　合成数据可以精确地复制原始数据集的统计特征，但又与原始数据不存在任何关联，所以实际应用过程中的效果强于传统的脱敏数据，便于在更大范围内分享和使用。合成数据创造的新样本具有原始数据的性质，甚至可以通过深度学习算法合成原始数据中没有的罕见样本。合成数据的产业价值主要体现在以下几个方面：实现数据增强和数据模拟，解决数据匮乏、数据质量等问题；有效解决数据隐私保护和数据安全问题，这对于金融、医疗等领域尤为重要；确保数据多样性，纠正历史数据中的偏见，消除算法歧视；应对罕见案例，创建现实中难以采集的数据场景，确保大模型输出结果的准确性。

四、2024年大模型训练数据中将有60%都是合成数据，2030年绝大多数都是

　　全球IT研究与咨询机构Gartner预测，到2024年用于训练大模型的数据中有60%将是合成数据，到2030年大模型使用的绝大部分数据将由人工智能合成。《麻省理工科技评论》(MIT Technology Review)将大模型合成数据列为2022年十大突破性技术之一，称其有望解决人工智能领域的“数据鸿沟”问题。可以预见，合成数据作为数据要素市场的新增量，在具备产业价值的同时，也可以解决人工智能和数字经济的数据供给问题。

五、汉仪股份的先发优势：

查询“合成数据”关键字，汉仪股份拥有专门以生成“合成数据”为目的的主要技术。