登录注册
金融圈注意了!重磅利好!彭博研究人员刚推出BloombergGPT
谁与争锋
蜜汁自信
2023-03-31 13:14:40

金融圈注意了重磅利好彭博研究人员刚推出BloombergGPT

金融圈注意了重磅利好彭博研究人员刚推出BloombergGPT

华尔街见闻

2023-03-31 11:26上海鲲鹏计划获奖作者,华尔街见闻官方账号,优质财经领域创作者

关注

ChatGPT引爆的AI热潮也烧到了金融圈彭博社重磅发布为金融界打造的大型语言模型LLM——BloombergGPT

3月30日根据彭博社最新发布的报告显示其构建迄今为止最大的特定领域数据集并训练了专门用于金融领域的LLM开发了拥有500亿参数的语言模型——BloombergGPT

报告显示该模型依托彭博社的大量金融数据源构建了一个3630亿个标签的数据集支持金融行业内的各类任务该模型在金融任务上的表现远超过现有模型且在通用场景上的表现与现有模型也能一较高下

一般来说在NLP领域参数数量和复杂程度之间具有正相关性GPT-3.5模型的参数量为2000亿GPT-3的参数量为1750亿

关于BloombergGPT

报告指出研究人员利用彭博社现有的数据对资源进行创建收集和整理通过构建迄今为止最大的特定领域数据集来完成BloomberGPT并基于通用和金融业务的场景进行混合模型训练

彭博社主要是一家金融数据公司数据分析师在公司成立的四十年的时间里收集了大量的金融文件拥有广泛的金融数据档案涵盖了一系列的主题

我们将这些数据添加到公共数据集中以创建一个拥有超过7000亿个标签的大型训练语料库

使用这个训练语料库的一部分我们训练了一个具有彭博风格的达500亿参数的模型该模型是根据Hoffmann和Le Scao等人的指导方针设计基于通用和金融业务的场景进行混合模型训练

结果表明我们的混合训练方法使我们的模型在金融任务上的表现大大超过了现有的模型而在通用场景上的表现则与之相当甚至优于现有模型

1.BloombergGPT优势特定领域模型仍有其不可替代性且彭博数据来源可靠

在论文中彭博社指出现阶段通用的自然语言处理模型可以涵盖许多领域但针对特定领域模型仍有其不可替代性因彭博社的大多数应用均为金融领域着手构建了一个针对金融领域的模型尤其优势同时可以在通用LLM基准测试上保持竞争力

除了构建金融领域的LLM外本文的经验也为其他研究领域的专用模型提供了参考我们的方法是在特定领域和一般数据源上训练LLM以开发在特定领域和通用基准上表现优异的模型

此外我们的训练数据不同于传统的网络爬取数据网络上的数据总有重复和错误但我们的数据来源可靠

2.BloombergGPT的训练数据集

BloombergGPT的训练数据库名为FINPILE由一系列英文金融信息组成包括新闻文件新闻稿网络爬取的金融文件以及提取到的社交媒体消息

为了提高数据质量FINPILE数据集也使用了公共数据集例如The PileC4和WikipediaFINPILE的训练数据集中大约一半是特定领域的文本一半是通用文本为了提高数据质量每个数据集都进行了去重处理

对金融领域的理解更准

报告指出在金融领域中的自然语言处理在通用模型中也很常见但是针对金融领域这些任务执行时将面临挑战

以情感分析为例一个题为某公司将裁员1万人在一般意义上表达了负面情感但在金融情感方面它有时可能被认为是积极的因为它可能导致公司的股价或投资者信心增加

报告指出从测试来看BloombergGPT在五项任务中的四项ConvFinQAFiQA SAFPB和Headline表现最佳在NERNamed Entity Recognition中排名第二因此BloombergGPT有其优势性

测试一ConvFinQA数据集是一个针对金融领域的问答数据集包括从新闻文章中提取出的问题和答案旨在测试模型对金融领域相关问题的理解和推理能力

测试二FiQA SA第二个情感分析任务测试英语金融新闻和社交媒体标题中的情感走向

测试三标题数据集包括关于黄金商品领域的英文新闻标题标注了不同的子集任务是判断新闻标题是否包含特定信息例如价格上涨或价格下跌等

测试四 FPB金融短语库数据集包括来自金融新闻的句子情绪分类任务

测试五NER命名实体识别任务针对从提交给SEC的金融协议中收集金融数据进行信用风险评估

对于ConvFinQA来说这个差距尤为显著因为它需要使用对话式输入来对表格进行推理并生成答案具有一定挑战性

ChatGPT为彭博点赞

华尔街见闻就这个问题专门询问了ChatGPTChatGPT认为BloombergGPT是一项很有意义的技术进步

它是专门为金融领域开发的一种语言模型可以更好地处理金融领域的数据和任务并且在金融领域的基准测试中表现出色

这将有助于金融从业者更好地理解和应用自然语言处理技术促进金融科技的发展同时BloombergGPT还可以为其他领域的语言模型的发展提供参考和借鉴总的来说BloombergGPT是一个有益的技术创新

相关标的可密切关注与金融相关大数据相关的公司创意信息易华录

相关标的可密切关注与金融相关大数据相关的公司创意信息易华录




本文所提到的观点仅代表个人的意见,所涉及标的不作推荐,据此买卖,风险自负。
作者利益披露:转载,不作为证券推荐或投资建议,旨在提供更多信息,作者不保证其内容准确性。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
创意信息
S
易华录
S
中国软件
S
昆仑万维
S
三六零
工分
2.91
转发
收藏
投诉
复制链接
分享到微信
有用 4
打赏作者
无用
真知无价,用钱说话
0个人打赏
同时转发
评论(10)
只看楼主
热度排序
最新发布
最新互动
  • 碎银几两
    躺平的老股民
    只看TA
    2023-03-31 13:20
    利好中科金财啊
    0
    0
    打赏
    回复
    投诉
  • 1
前往