ChatGPT开始商业化落地,稀缺性标的神州泰岳引领自然语言处理应用落地
一、触发事件
1、去年11月30日,OpenAI发布了ChatGPT人机对话交互模型,在文本生成和人机对话上取得了新的突破。随后ChatGPT应用多点开花,商业化落地速度不断加快;微软计划将ChatGPT等人工智能工具整合到其所有产品中,其中包括将ChatGPT融合到必应搜索引擎以及Office办公套件;同时,OpenAI也推出付费版ChatGPT,每月收费42美元;近日Buzzfeed宣布和OpenAI合作,未来将应用其提供的ChatGPT API来协助内容创作,因此Buzzfeed股价跳涨3倍。
2、1月30日早间,有消息称,百度计划推出一款人工智能(AI)聊天机器人服务,和最近爆红的ChatGPT类似,可能会成为中国在聊天机器人竞争中备受关注的一款产品。该消息也引爆了二级市场,相关概念股悉数暴涨,其中拓尔思20CM涨停,中文在线、万兴科技一度涨逾15%。
以ChatGPT为代表的自然语言模型将深刻融入内容生成、搜索引擎增强、编程协助、智能客服等领域,随着自然语言处理模型的不断完善,相关应用将大规模在B端和C端的商业化落地,届时相关自然语言处理技术企业将全面受益;神州泰岳子公司鼎富智能主营人工智能与大数据,在NLP领域行业领先,被评为“潜在独角兽”企业,神州泰岳作为A股引领NLP发展的稀缺性标的有望量价齐升。
二、核心逻辑
1、ChatGPT火爆全球,引发AIGC投资浪潮
ChatGPT是OpenAI在2022年12月上线的一款全新的聊天机器人模型,它通过对话方式进行交互,能够根据用户输入的自然语言文本内容,自动生成新的文本内容,不限于普通聊天、协助写代码、解决具体难题等等应用场景,属于 AIGC 行业中细分赛道中的一种。凭借着远超同类产品的智能化水平,ChatGPT上线5天后便获得了超过100万的用户数量,成为一大爆款。随着谷歌、Meta、微软等科技巨头在AIGC赛道积极布局,AIGC的投资风潮席卷全球,有潜力产生下一个万亿美元级赛道,以神州泰岳为代表的自然语言解决方案提供商有望最先受益。
2、自然语言处理作为AIGC、ChatGPT底层技术成为最优赛道
自然语言处理(NLP,Natural language processing)主要包括自然语言理解类任务和自然语言生成类任务,其使得计算机可以理解和反馈自然语言。NLP作为底层技术通常和智能语音、知识图谱等技术捆绑,并以对话AI、知识库等产品形式出现。在ChatGPT技术出现之前就有很多的相关自然语言处理技术研究工作在推进了,OpenAI从2018年预训练模型就开始在自然语言领域进行研究,直到2020年GPT3掀起大模型热潮。从投资上看,NLP作为AIGC的底层算法,其生成算法与算力决定AIGC能否运行,是AIGC领域中最为核心的赛道。
3、NLP市场空间不断增大,但专注NLP语义识别的企业稀缺
艾瑞统计研究,2021年,中国NLP核心产品的市场规模为171 亿元,带动规模为450亿元,到2026年,核心产品规模将达到459 亿元,CAGR=24.8%,带动规模将超过1000亿元。
从市场格局端来看,当前国内领先的对话交互类AI算法企业主要包括两类:1)以语音识别为核心业务的企业,延生到NLP领域,如科大讯飞。2)以NLP为核心业务,专注语义识别的企业,如神州泰岳、拓尔思。
从年度数据来看,科大讯飞位居第一,但核心业务为语音识别;专注语义识别的企业较为稀缺其中百度智能云市场份额最大;其中,仅神州泰岳、汉王科技、拓尔思、神思电子4家公司在A股上市;神州泰岳是国内最早从事自然语言处理研发的企业之一,在语义智能领域具备自主可控的底层技术,可以提供预训练模型和阅读理解等技术成果。
4、预训练模型需要大量数据支持,中文语料库仍有所匮乏行业壁垒较高
NLP
技术主要包括词法分析技术、句法分析技术、语义分析技术、语用分析技术以及语句分析技术等。从技术原理上而言,由于自然语言所具有的歧义性、动态性和非规范性,同时语言理解通常需要丰富的知识和推理能力,如果需要让 AI 理解人类的语言,最大的难度在于让机器明白人类对话背后大量的常识设定。因此,NLP
的训练需要海量数据,难度相对其他 AI 能力的训练更高。NLP 技术需要很多支撑技术,包括提供训练技能的机器学习和深度
学习等,这些技术需要高度专业的科研团队开展长期攻关研究。参与研究的机构大多数为全球性顶尖高校,微软、谷歌和百度等互联网巨头,技术壁垒很高。
通常NLP作为底层技术并以对话AI、知识库等产品形式出现前需要进行大量的预训练模型训练;预训练模型通过大规模文本库进行高算力的预先训练,得到通用的语言模型和表现形式,再经过特定应用环境对预训练模型进行微调,从而在各种下游应用领域得到目标任务的快速收敛和准确率提升。模型能力的提高
与参数量和预训练数据量有直接关联;对比 GPT-2,2020 年推出的 GPT-3 最显著的特征是庞大的数据量和参数投入,整体训练 过程耗资 1200 万美元,投入数据量达上万亿,模型参数量达到 1750 亿。在超大模型 的训练下,GPT-3 的匹配正确答案的准确率大幅提升。
由于不同地区,不同民族和不同教育程度的使用人群存在语言差异,因此 NLP 技术在各行业各领域的应用效果的提升需要真实环境下的文本和语音资料,需要有可用于训练的大数据资源,更需要有用于提供基础支撑的领域知识和常识知识等。包括 chatGPT 在内的预训练模型因为中文语料库的匮乏,中文的语言处理有时表现不尽如人意;由此可见,在中文自然语言处理的预训练模型率先布局的企业有望最先受益。
收购鼎富智能,神州泰岳将有望引领国内自然语言处理发展
1、公司拥有深厚的技术积累,具备完全自主研发的底层核心技术
神州泰岳2016年6月收购了鼎富智能,成为神州泰岳大数据和人工智能布局中的核心技术企业,专注于非结构化大数据技术的研发和推广。公司拥有深厚的技术积累,在非结构化文本大数据领域拥有完全自主研发的底层核心技术与丰富的应用层推广经验。公司以概念计算理念研发的智慧语义认知技术,更好地解决了自然语言分析歧义性这一方面行业难题,在自然语言处理(NLP)领域具有业界领先水平。鼎富科技为解决业务的规范表达与自然语言表达的复杂性及多样性之间的矛盾,开发推出了具备完全面向业务建模的非结构化文本分析的应用层平台DINFO-OEC。该平台与公司自主研发的DINFO-SPIDER互联网信息采集系统相结合,形成了鼎富科技完善的非结构化大数据采集、清洗、处理和分析挖掘的技术能力和服务能力。
2、公司拥有两大NLP领域核心竞争力,铸就企业护城河
1)领先的语义认知能力:公司的智能语义技术涵盖面向业务的自然语言文本分析、基于增强学习语义模型分析检索、多维度组合模式检索等三大能力,集成OEC语义先验知识规则模型、关系图谱推理模型、深度学习模型等三位一体的语义分析方案。公司采用智慧语义感知技术,在公安领域积累有效训练样本数千万份、形成了大量的特殊领域向量化专业词汇,持续近几年的时间优化模型准
确率和有效性,使得算法从研发设计阶段走向实用化场景化阶段,并可理解自然语言中的一词多义和相同语义的不同表述方式,为自然语言理解的相关任务如:要素抽取、实体识别、篇章理解、语义推理等,提供创新的、工业化的落地手段,进而
推动NLP行业应用的快速发展。
2)独特的算法整合和深度解析能力:公司将已经取得的行业及语义层经验知识与机器学习、深度神经网络进行融合,提供多个分类、聚类、回归、主题模型,在公安、金融行业的领域专业词向量及算法上,实现了场景泛化能力,同时采用分布式计算方式,支撑数据深度分析和数据
挖掘,再结合可扩展、分布式、低延迟的图形数据库提供知识图谱的图计算能力。形成强大的知识图谱的图计算能力,实现 信息、线索、研判的可视化分析操作,方便用户一目了然。
3、公司目前三大产品拥有较多专利,受到社会高度评价
公司利用“智脑2.0”“语义工厂”及“中文信息(深度)处 理开放创新平台”,有效的将科研成果同产业落地工程相对接,面向公安、政府、气象、环保、金融、服务等行业提供人工
智能及大数据解决方案,形成智慧政企、智能客服、智慧园区三条核心业务线。截至2022年6月,在人工智能领域公司已申请专利302件,其中291件为发明专利;已获得授权的专利118件,其中发明专利108件。目前公司在Gartner、中国大数据产业生态大会、中国大数据产业生态联盟、雷锋网等多家机构获得了“2018中国大数据企业50强”、“人工智能领域TOP10”、“入选Gartner的人工智能报告”等多项荣誉。
4、当选新一代人工智能产业技术创新战略联盟自然语言处理推进组组长,引领推动行业发展
2018年新一代人工智能产业技术创新战略联盟年度会议中表决,自然语言处理推进组将由神州泰岳出任组长并牵头组建,联合百度、哈工大、达观数据、小牛翻译等知名企业共同推动NLP技术的快速发展。神州泰岳将牵头带领推进组整合优势技术资源和行业数据资源,加强相互协作,共同制定相关技术标准,推动现有技术瓶颈和数据瓶颈的突破;收集行业需求,整合学术界和产业界资源,形成技术和需求的联动效应,并联合产学研单位共同创新。