登录注册
文心一言、GPT3.5及GPT-4的应用测评对比
加油奥利给
下海干活的韭菜种子
2023-03-22 07:29:07
作者:王倩雯,孟灿(国金)


投资逻辑

OpenAl于2023年3月14日发布最新版本多模态大模型GPT4及其AP;国内百度于3月16日发布生成式大模型“文心一言”并开放邀请测试。为对比国内外大模型在各领域的性能差异,我们对文心一言、GPT-3.5 (ChatGPT的原模型)和GPT-4的问答表现分别进行了测评。测评涉及常识和创作(文学/图片)、归纳和推理(演绎推理/情感推理/逻辑推理/主体信息抽取)、数学和代码、应用((AI助手/客服/办公协同/推荐/诗词理解)等方面。

在常识和创作类问题中,三大模型均能正确回答客观常识类问题;进行文学创作结果均能体现正面价值观,但文心一言的分词功能有待提升;目前GPT-4尚未开放图像生成外部测试,文心一言的图像生成能力较为出色。

在归纳和推理类问题中,文心一言在演绎推理、逻辑推理等领域表现略逊于GPT系列模型,但在归纳总结类任务中表现较好;三大模型在情感推理类问题中仍有提升空间。

在数学和代码类问题中,GPT-3.5有更好的数学能力表现;GPT-3.5及GPT4模型均完成了本文提出的代码生成问题,但并非最优解,文心一言代码问题识别能力有待加强。

在应用场景测试中,三大模型均能较好地完成AlI生活助手、售后客服、产品推荐、办公场景文本生成等任务,但在文言文和古诗词理解运用方面表现不佳。

我们认为随百度文心及OpenAlI合作生态伙伴数量快速增长、训练数据量和模型训练能力持续提升,各模型性能都有望实现进一步优化完善。

投资建议

文心一言、GPT-3.5、GPT-4三大模型在常识问答、文字生成等领域均有出色表现,其中,文心一言虽然在逻辑推理等任务中表现不及GPT-3.5、GPT-4,但已能够基本满足Al助手、售后客服、产品推荐等诸多场景需求。百度文心的开放应用将极大加速国内生成式Al模型的落地应用节奏,有望帮助生态伙伴实现用户体验提升和生产降本增效。我们建议关注在A领域进行持续布局且拥有成熟应用场景的公司,如万兴科技、汉得信息、凌志软件、同花顺、金山办公。

风险提示

海外基础软硬件使用受限;应用落地不及预期;行业竞争加剧风险;测评问题有限导致结果或有偏差。





作者利益披露:转载,不作为证券推荐或投资建议,旨在提供更多信息,作者不保证其内容准确性。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
*ST慧辰
S
汇纳科技
S
世纪天鸿
S
宣亚国际
S
朗玛信息
工分
0.40
转发
收藏
投诉
复制链接
分享到微信
有用 7
打赏作者
无用
真知无价,用钱说话
0个人打赏
同时转发
评论(13)
只看楼主
热度排序
最新发布
最新互动
  • 只看TA
    2023-03-22 08:56
    汇纳科技赛道很好
    1
    0
    打赏
    回复
    投诉
    于2023-03-22 21:37:17更新
    查看1条回复
  • 只看TA
    2023-03-22 08:45
    谢谢分享
    1
    0
    打赏
    回复
    投诉
    于2023-03-22 21:37:26更新
    查看1条回复
  • 只看TA
    2023-03-22 08:26
    谢谢分享
    1
    0
    打赏
    回复
    投诉
    于2023-03-22 21:37:46更新
    查看1条回复
  • 只看TA
    2023-03-22 07:48
    谢谢分享
    1
    0
    打赏
    回复
    投诉
    于2023-03-22 21:38:18更新
    查看1条回复
  • 加油奥利给
    下海干活的韭菜种子
    只看TA
    2023-03-22 08:25
    宣亚国际:在互动平台表示,公司第一时间已接入Open AI的ChatGPT 3.5 API,并等待GPT-4.0接入申请通过。此外,公司已取得了接入文心一言的邀请,公司将全面体验并接入百度领先的AI能力。同时,公司与战略合作伙伴鸿博股份、英博数科、北京AI创新赋能中心正基于和微软OpenAI一样的英伟达megatron底座,通过LLM、NLP等模块共同搭建垂直场景客户的ChatGPT模型,并借助合作伙伴强大的智能算力支持完成模型的预训练和测试,力争在人工智能新阶段为客户提供更好的产品与服务体验。
    1
    0
    打赏
    回复
    投诉
  • 1
前往