登录注册
广发计算机刘雪峰团队|向量数据库适于AI大模型非结构化场景,但市场需求尚处于初期,中远期规
反击螺旋
超短追板的散户
2023-05-06 10:26:14

【广发计算机刘雪峰团队|向量数据库适于AI大模型非结构化场景,但市场需求尚处于初期,中远期规模还不到夸张之时】

[玫瑰]Vector database(向量数据库)是一种专门用来处理向量嵌入的数据库。它通过比较值并找到彼此相似的值来索引向量,以便于搜索和检索。与其他传统数据库不同,它能够处理复杂数据,如文档、图像、视频和网页上的纯文本等非结构化数据,使用户能够搜索未标记的内容,这对于扩展大语言模型,比如ChatGPT所使用的GPT-4的用例较为重要。

[玫瑰]大语言模型的普遍存在的问题是,训练数据的丰富程度不足和即时性不够会影响模型的通用化效果,造成其“一本正经的胡说八道”,这限制了它在垂直领域的实用性。虽然此前通过人类反馈强化学习机制(RLHF)来让模型对错误的输出结果进行调整,但这种方法并不能彻底解决大语言模型的问题。

[玫瑰]向量数据库有望有效提升AI大模型的通用化效果。生成式AI大模型的训练数据包含大量的非结构化数据。数据类型的变化和数据量的变化,催生了向量数据库的需求。向量数据库通过向量嵌入的方式,把来源权威,可信的非结构化数据转换成向量,并储存到数据库中,就能帮助大语言模型具有“长期记忆”,并且减少模型生成的内容出错的可能性。

[玫瑰]另一方面,向量数据库的市场规模较小。在过去AI模型训练的数据量较小,数据类型单一的情况下,向量数据库可应用的场景较小。自2017年Transformer模型推出后,各科技厂商开始大语言模型的探索,对于向量数据库的需求才开始形成规模。未来随着生成式AI大模型开发量和使用量的增长,向量数据库的应用有望快速增长。

[玫瑰]向量数据库是典型的大数据产品。向量数据库存储和处理的数据量达到千亿条,数据类型涵盖图像、文字、音频等多种,并且对高并发场景有较好的表现。其具备对于海量、异构、多源数据的处理能力,是典型的大数据产品。

作者利益披露:转载,不作为证券推荐或投资建议,旨在提供更多信息,作者不保证其内容准确性。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
海天瑞声
工分
0.37
转发
收藏
投诉
复制链接
分享到微信
有用 1
打赏作者
无用
真知无价,用钱说话
0个人打赏
同时转发
评论(1)
只看楼主
热度排序
最新发布
最新互动
  • 只看TA
    2023-05-06 22:45
    感谢分享
    0
    0
    打赏
    回复
    投诉
  • 1
前往