1、数据资源开始发酵
给微软提供数据标注服务的海天瑞声二波新高,证明了CHATGPT的数据、算法和算力“三驾马车”中,均为核心。中国工程院院士廖湘科指出:大规模的基础数据和行业数据是人工智能发展的核心。(三维天地就是行业数据清洗和管理,行业数据领域地位极高,2022中国行业数字化年度十大领军企业,一同获奖的还有华为、蚂蚁数科等巨无霸。)
2、数据标注与数字清洗同等重要,甚至CHATGPT中出现的环节更多(全过程)。
数据经过数据整理才能喂给算法,在数据被整理成为高价值密度、高可用性数据要素的过程中,数据清洗与数字标注环节同等重要,分别是数字整理的前两步,而且,数据清洗贯穿chatgpt的始终,训练生成的数据也要进行数据清洗,将其中不准确、不正确的数据剔除(这块与市场关注的CHATGPT监管也非常契合。),可以说数据清洗在CHTAGPT中出现的频率比数字标注多的多。
而未来chatGPT-5可能依赖模型效率和数据质量的提升来实现改进,对数据清洗和标注提出极高要求。
以下来自华泰研报《计算机行业数据要素产业深度研究:数字经济的核心主线》
3、三维天地是A股唯一的数据清洗平台提供商且已发布最新数据资产管理平台
华泰证券研报:“数据清洗:主要参与厂商包括九次方大数据、数据宝、吉佳通达、三维天地等大数据企业”,三维天地A股唯一。
三维天地是数据资产管理地位领先,服务对象包括40家央企和30家世界五百强(获取顶尖行业数据)。2022中国行业数字化年度十大领军企业,一同获奖的还有华为、蚂蚁数科等巨无霸(小公司能和巨无霸同列,说明其在行业数据领域的地位)。
其迭代更新的数据资产管理平台V12版的核心功能就是运用NLP,通过数据清洗和数字标注,以深度学习算法为智能化手段,解决解决企业中关键核心数据不可信、不可用、数据价值无法释放等痛点问题。
其中,数据清洗平台是核心组件,可建立基于多对多关系数据模式的开放式数据清理功能,支持对原始数据的抽取、分词、语义识别、清洗与整合构建不同主题模型的主数据信息库,通过人工干预与确认,采用系统自动扫描清洗与人工干预相结合的模式进行数据清洗。平台界面操作友好,使企业管理人员可以快速上手,控制已有数据的抽取、清理和重整,包括映射关系的转换和对照关系的存储,可实现高效率人工干预与数据确认,极大地提升了企业进行数据清洗的系统化和智能化支持,降低了数据清洗的操作复杂性,提升了数据质量。
4、彩蛋:致电公司,公司表示正在进行CHATGPT研究,其将在下一代数据资产管理平台中引入CHATGPT。互动易回复略显保守,表示在积极研发,与电话并不矛盾,投资者可以电话确认。