荣联科技,明确有数据标注、清洗业务。公司通过百度智能云全面体验并接入文心一言,与百度在产品研发、标准定制等多个领域展开深化合作,通过技术共享、培训赋能、联合营销等方式强化竞争力,为行业用户提供端到端的全场景数字化解决方案及服务。
国内不少正在布局ChatGPT的文本公司,对数据的需求激增。
数字标注在这种价值认可中,荣联科技也试着摘掉“堆人力”“血汗工厂”的标签,逐步走向自我升级。
对标海外各家大厂的大模型与数据标注平台的合作,Google的LaMDA选择与美国供应商合作,预训练语料库大小为2.81T;Meta的BlenderBot3与亚马逊MTurk合作,预训练语料库大小为180B;OpenAI的ChatGPT/InstructGPT与upwork和Scale AI合作,虽然没有公布详细数据,但预计预训练语料库不会太小。
不难看出,每个大模型的背后依然有数据标注平台的服务支撑。而此时,国内不少追随者已经开始对ChatGPT背后的文本数据构建产生兴趣。
最近几个月来,与ChatGPT有关的故事还在持续上演,甚至已经蔓延到了数据标注领域。
这期间,数据标注平台估值高涨、文本公司需求激增、AI大厂开始分拆数据标注团队……那个被“选择性无视”、被“认为没有讨论价值”的数据标注行业,再一次支棱起来了。
这种全行业认可首先反映到资本层面,国内一二级市场的相关公司应声实现了新一轮估值高涨。
春节后A股的第一个交易日,上市公司海天瑞声就结结实实走出了第一个涨停板,此后连续12天其股价一路高歌,从81.6元飙升到244.8元,市值超过百亿,比此前翻了3倍还多。
尽管海天瑞声在公告中已经作出风险提示:“自然语言业务对公司整体贡献大约在10%左右”“公司尚未与OpenAI开展合作,其ChatGPT的产品和服务尚未给公司带来业务收入”……但资本的热情不减,截止发稿海天瑞声的股价仍处于194元高位。
第一目标价15元。终极58元。