【国金计算机 | 会议纪要】京东言犀大模型研发进展-韭研公社

登录注册

【国金计算机 | 会议纪要】京东言犀大模型研发进展

顺势而行

2023-04-10 09:14:09

从ChatGPT到言犀：大模型发展及产业化落地

演讲者：何晓冬京东集团副总裁

言犀是京东版的ChatGPT，京东聚焦于产业版大模型以及产业化落地。

AI发展历程最早可以追溯到图灵，图灵提出判断机器是否智能即让机器与人对话，长时间对话后人无法判别是跟机器对话还是跟人对话，则机器具有足够智能。对话本身在更高的认知层面上反映了智能的层次。

1950年图灵测试提出以来，对话智能经历了长时间的发展。真正在现实生活中出现对话机器是1966年的第一个对话机器人Eliza，后来2010年出现Apple的Siri，2014年出现Amazon Echo，直到去年年底发布ChatGPT。

在生成模型上近年来人工智能进步巨大，图中红色线代表人工基准水平，斜线代表在不同领域机器与人的距离，包括图像生成领域、文字生成领域和语音生成领域，可以看到距离在迅速降低。

在2022年左右，在语音、文字、图像上，机器生成水平已经接近或者达到人工水平。进步的原因在于：1）计算算力和硬件方面，摩尔定律和Denard Scaling的结合，结合并行化和改进的GPU架构，能够用更大量的数据训练更大的模型，提升硬件的计算力；2）数据和模型架构方面，Transformer模型架构的出现，能够迅速结构大量数据达到更高效果；3）算法方面，通过无监督学习+半监督学习+人类反馈学习，使机器在很少或没有特定培训情况下能够执行某些特定任务。三者结合使得机器在深层领域上，图形、文字等一系列模态上快速接近人类水平。

模型参数迅速增长也是AI发展的最大趋势之一，从三年前的几十亿G涨到现在几千亿G模型，游戏玩家也迅速增加。现在大模型的算力和训练成本仍存在较大优化空间，ChatGPT已不支持Plus付费，因为计算资源不够。随着参数规模迅速增加，算力和训练成本仍存在瓶颈，大规模的性能天花板远未到来。另一方面算法的优化包括硬件优化、芯片优化、数据中心架构优化等也会成为破局的关键。

ChatGPT近年来技术发展回顾：ChatGPT达到当今效果，是基于机器学习、神经网络以及Transformer模型的多种技术模型积累，从1950年基于模板和规则学习，再到1980年根据一定范围数据进行参数分类，再到2006年根据神经网络学习，再到2017年Transformer发布以来对人脑学习过程的模仿，再到近4年来进行海量数据学习训练，辅助人类反馈信息训练，达到了现在的效果。

ChatGPT技术原理，是预训练大模型+Code-training+Instruction-tuning+RLHF(基于用户反馈的强化学习)，过去三个月以来，ChatGPT全球有1亿人的使用量，更多的用户的反馈信息被用来训练和提升ChatGPT的水平。

以前AI的支柱是数据+算法+算力，现在三方面均得以提升。由于ChatGPT的大范围使用，数据从原先网页上的数据变为交互性的对话式场景数据，场景算法也升级到用户可以直接交互和触摸的产品，同时也带来了极大的数据收集机会和大量用户反馈机会。这在某种意义上引领了新生态，即以产品形态来驱动技术突破。ChatGPT不再是简单技术和算法的突破，而是在应用层面达到高可用度，在产品层面包括生成代码、生成文章、生成营销文案、生成客服、生成对话达到高可用性，以及在生态层面也突破成为真正AI原生产品。

最开始我们处于黄页目录时代，通过查目录来获得信息的。后来1990年以后进入搜索引擎时代，信息获取方式发生巨大改变，从而带来万亿美元级别的新的产业重构，现在进入智能交互时代，人工智能深刻理解人类意图，搜索框未来可能会变成Ask Me Anything的交互框。

在此之上所有的产品形态、商业形态都可能重构，国内外会大批量涌现基于生成式AI公司，同时Open AI也将成为生成式AI的领域的最大独角兽。

ChatGPT更多是指文本和代码生成，但生成式AI范围远超文本，还包括语音、图像、视频生成。随着技术不断突破，在每个模态方面都会有进一步的商业化爆发，在各模态上逐渐从技术突破走向产品化，走向商业化成熟的进程。未来技术与产品的结合，会带来更多的商业化和社会效益和商业效益。

微软copilot让生成式AI进入office，可以辅助写文案、写PPT、写邮件，包括推荐公式等，让大家可以在软件上更好地编辑内容，office变成一个生产力工具，只要提出想法，就会自动生成内容，极大地降低生成内容门槛，提升生成内容的生产力。使得整个操作处理流程变得更加高效，有更好的产出。

京东在任务型智能对话交互方向上取得一系列成果。京东关注的是任务型智能对话交互，希望在生成式任务上达成与AI的交互。ChatGPT无法回答你的快递物流到哪里的问题，这是因为它没有深入跟产业相关的数据进行融合。AI大模型需要与工单系统、业务系统、物流系统、派件系统都有深度的耦合，把所有系统进行深度串联，才有可能真正理解用户的意图；同时AI还需要在相应的数据里面找到用户的意图，甚至还需要多轮的交互和澄清，才能得到用户需要的答案，达到闭环的效果。

京东聚焦在任务型的智能对话与交互，通过语音、文本、数字人等多种形式完成更复杂的任务，实现高表现力、可控、可信的智能对话体验。

在生成语音方面，京东模型能够解决生成语音时对上下文建模的不足，进一步丰富声音表现力。

在图象生成方面，京东能够解决极简条件下人体感知与重构技术存在感知重建精度与系统复杂度的固有矛盾，快速高效率地重建人体的三维形象，真正把数字人技术应用到客户服务中。

在语音交互方面，存在用户口语化、不规律停顿等问题，如何判断人/机话语权决策，京东提出多模态融合的话语权决策技术，领先国内外同行。

针对真实的产业需求，京东一直在大模型的方向上、按照产业具体需求进行推进。2021年京东推出十亿级大模型K-PLUG，去年推出百亿级大模型Vega，今年规划推出千亿级大模型言犀。

十亿级大模型K-PLUG最重要的创新是将专业领域知识融入到模型中，传统大模型虽然能够生成流畅文本，但是文本专业度、丰富度、忠实度不足。在具体产业应用时候，这些错误是不可接受的，K-PLUG模型能够把专业知识注入到模型中，专业度和忠实度得以明显提升。

京东不只是语言模型，模态从文本进一步扩充到更多其他模态，比如用在语音生成、图像生成、文字生成、艺术数字人生成、艺术品或者艺术创作生成。比如在语音生成领域，京东模型可生成有一定口音和情绪的语音，并应用于播音员播报选股场景。

京东还有图像生成，比如AI图像创作、AI生成换装图像。

京东还有数字人大模型，其中数字人形象、脚本均由AI创作。

京东还有艺术大模型，京东携手中央美院，探索AI艺术创作，比如书法、地图艺术作品创作，“塞尚四季”风格模仿，生成同类型风格作品。

京东对多个模态进行综合性大模型处理，把关键技术进一步落地，成为行业的应用平台，最后生成产品和解决方案，直接服务各行各业

京东已经落地生成全虚拟数字人直播客服产品，已经上架，帮助京东商家进行长时间的精细调制的直播带货。

京东还运用技术在智能政务热线，进一步提升市民热线效率，提升市民满意度。

例如京东在天津为每个老人配备贴心AI助理，帮助通过这种智能对话技术，为每个老年人配备贴心的AI助理。

京东在金融行业给银行提供数字人客服，把模型应用在各个具体的产业场景上。

ChatGPT不只是一个新技术和一个新模型，更带来一轮新的生产力革命，以AI为主导，与大数据云计算、物联网相结合的新革命。未来很快会看到机器广泛应用于社会的生产生活。ChatGPT在5天时间就达到了100万用户，两个月达到1亿用户，远超历史上其他类似产品。生成式AI能够将全球的 GDP提升7%，10年之内全球的GDP会增长将近7万亿美元，ChatGPT会给未来带来更多机会和更好的前景。

结尾Q&A

Q：京东怎么保障言犀算力需求？

A：京东最底层算力基于京东云，京东云是一个云计算的大额的基础设施，包括提供基本的 GPU的算力，它本身有极强的弹性和容错性，所以基于京东云上提供算力得以保障大模型的运行。在这之上京东再建中台，在中台之上运行大模型，以及在各个垂直产业进行微调以后的产业模型，能够进一步支撑每个产业所需要的具体场景。

Q：产业大模型全部是京东自主研发的吗？有跟国外公司合作吗？

A：模型本身是自己研发的，但是要把模型和算法架构进行区分。现在所有大模型的最基础的算法，都是基于2017年谷歌论文发表的Transformer，Transformer再往前也是基于其他的模型，比如生成式神经网络等。从技术进步来说，每一家都是站在前人基础之上，但是从产品角度来说，至少京东对产品本身是拥有全部产权的。

作者利益披露：转载，不作为证券推荐或投资建议，旨在提供更多信息，作者不保证其内容准确性。

声明：文章观点来自网友，仅为作者个人研究意见，不代表韭研公社观点及立场，站内所有文章均不构成投资建议，请投资者注意风险，独立审慎决策。

京东集团-SW

工分