国金证券-文心一言、GPT3.5及GPT~4的应用测评对比-韭研公社

登录注册

国金证券-文心一言、GPT3.5及GPT~4的应用测评对比

心无股

2023-03-20 22:09:57

OpenAl于 2023年 3月14日发布最新版本多模
态大模型GPT4 及其AP;国内百度于 3月16日发布生成式大模型“文心一言”并开放邀请测试。
为对比国内外大模型在各领域的性能差异，我们对文心一言、GPT-3.5 (ChatGPT 的原模型）
和GPT- 4的问答表现分别进行了测评。测评涉及常识和创作（文学/图片）、归纳和推理（演绎推理/情感推理/逻辑推理/主体信息抽取）、数学和代码、应用（（Al助手/客服/办公协同/推荐/诗词理解）等方面。
在常识和创作类问题中，三大模型均能正确回答客观常识类问题;进行文学创作结果均能体现正面价值观，但文心一言的分词功能有待提升;目前GPT-4尚未开放图像生成外部测试，文心一言的图像生成能力较为出色。
在归纳和推理类问题中，文心一言在演绎推理、逻辑推理等领域表现略逊于 GPT系列模型，但在归纳总结类任务中表现较好;三大模型在情感推理类问题中仍有提升空间。
在数学和代码类问题中，GPT-3.5有更好的数学能力表现;GPT-3.5 及 GPT4 模型均完成了本
文提出的代码生成问题，但并非最优解，文心一言代码问题识别能力有待加强。
在应用场景测试中，三大模型均能较好地完成
All生活助手、售后客服、产品推荐、办公场景文本生成等任务，但在文言文和古诗词理解
运用方面表现不佳。
我们认为随百度文心及 OpenAll合作生态伙伴
数量快速增长、训练数据量和模型训练能力持续提升，各模型性能都有望实现进一步优化完善。
投资建议
文心一言、GPT-3.5、GPT-4三大模型在常识问答、文字生成等领域均有出色表现，其中，文心一言虽然在逻辑推理等任务中表现不及
GPT-3.5、GPT-4，但已能够基本满足 Al助手、售后客服、产品推荐等诸多场景需求。百度文心的开放应用将极大加速国内生成式Al模
型的落地应用节奏，有望帮助生态伙伴实现用户体验提升和生产降本增效。我们建议关注在
A领域进行持续布局且拥有成熟应用场景的公司，如万兴科技、汉得信息、凌志软任、同花
顺、金山办公。

作者利益披露：转载，不作为证券推荐或投资建议，旨在提供更多信息，作者不保证其内容准确性。

声明：文章观点来自网友，仅为作者个人研究意见，不代表韭研公社观点及立场，站内所有文章均不构成投资建议，请投资者注意风险，独立审慎决策。

金山办公

万兴科技

汉得信息

同花顺

工分