登录注册
资本市场在不断探究ChatGPT本质,接近Ai养成真相!
寒塘渡鹤影
不要怂的龙头选手
2023-05-04 22:33:53
资本市场在不断探究ChatGPT本质,接近Ai养成真相!


 

 


 ChatGPT本质是一个向量数据压缩、查询工具

那么什么是向量数据呢?

简单来说,向量数据库用来存储非结构化数据,例如,文档、图片、视频、音频和纯文本等,在保证100%信息完整的情况下,通过向量嵌入函数来精准描写这些非结构化数据的特征,从而提供查询、删除、修改、元数据过滤等操作。而像SQL、Mysql这样传统的数据库根本无法完成这些操作。

明白这一原理后,美股已经展开了向量数据投资的热潮:

美国向量数据龙头企业:MongoDB现在冲高10%

 


 

向量数据的伟大之处在于——模糊匹配:

 

 向量搜索是一种模糊的匹配,

需求在 LLM 前已经出现

向量搜索就是在海量存储的向量中找到最符合要求的 k 个目标。当我想从海外独角兽的文本库中找出与“硅谷最新动态”最相关的 5 段文本时,首先会使用 OpenAI Embedding api 将海外独角兽的所有文章加工成向量,存入向量数据库中;然后把“硅谷最新动态”的向量与数据库中所有向量进行语义相似度的对比;比对后,对相似度排名返回 top 5 的文本,很可能来自去年团队去硅谷的所见所闻。

理解了这个过程,我们会发现向量搜索和传统数据库的查找最大区别在于:传统数据库是精确的索引,查找到的内容是有正确答案的。也就是说,数据库中的数据只有两类,一类是符合查询要求、返回给用户的数据,另一类就是不符合要求。而向量搜索则是模糊的匹配,找到的是相对最符合需求的数据,并没有精确的标准答案。

将这个过程和互联网业务联系起来,会发现向量搜索和之前我们研究过的 Feature Store 一样,是一个已经存在的需求。互联网中的搜索、推荐业务,安保系统的人脸识别、对比,都有很多使用场景。在这些场景下,系统需要根据多个维度进行数据关联计算,因为实际业务场景中数据量非常大,很容易形成类似“笛卡尔积”这种变态的结果,即使减少维度数量,进行循环遍历,来获取某几个向量的相似度计算,在海量数据的场景下也是不现实的。

笛卡尔积:序偶可以简单理解为带顺序的集合,而笛卡尔积就是 X 和 Y 两个集合内,包含的所有有序对组成的集合(序偶集合),又称为“直积”,在数学上记为 f={|x∈X, y∈Y}。

因此之前向量搜索算法就已经出现,Facebook 开源的 FAISS 是其中的翘楚,只是在大模型出现之前,这个需求只在大厂中存在,主要通过自研产品满足。

向量数据库是 LLM 下游的新数据库产品

向量数据库是一种高效存储和搜索向量的数据库产品,传统数据库无法很好的满足这一需求。传统数据库只能部分满足向量数据的存储,而且在搜索上技术有明显差异。

在存储上,向量数据规模超过传统的关系型数据库,传统的关系型数据库管理 1 亿条数据已经不算小的量级。而在向量数据库需求中,一张表千亿数据是底线,并且原始的向量通常比较大,例如 512 个 float = 2k,千亿数据需要保存的向量就需要 200T 的存储空间。因此对向量数据的存储需求量是很大的,如果不做数据库只做向量搜索算法,很大一部分需求还需要用户自己研发。

而查询方式的差异更大。前面提到,传统的数据库查询通常是点查和范围查,都是一种精确查找,即查询得到的结果只有符合条件和不符合条件。而向量数据库的向量查询往往是近似查找,即查找与查询条件相近的结果,即查询得到的结果是与输入条件最相似的。近似的查找对算力要求更高。

在大模型场景下,向量搜索的需求真正开始爆发式增长:如果有大量信息或语料需要给 LLM 作为参考,把大量文本一股脑的作为 Prompt 显然很不经济,而且过多不相干信息还可能误导模型输出。因此大部分创业者的方式是,提前把语料库向量化,再查询跟问题 embedding 相似的语料,最终一同送入 GPT 模型。这是一种典型的创业项目整合 OpenAI api 的路径,是现阶段比较灵活且经济的方式。向量搜索在这里扮演了择优选择 prompt 的角色。而 AutoGPT 更是把需求量推到了更高的水平。根据近期主流向量数据库 Python 包的下载量,几款头部产品都在近两个月有需求量的暴涨:



(内容略长略晦涩难懂,感谢阅读)


相关标的:每日互动、星环科技、海晨股份

作者利益披露:原创,不作为证券推荐或投资建议,截至发文时,作者持有相关标的,下一个交易日内可能择机卖出。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
每日互动
工分
16.31
转发
收藏
投诉
复制链接
分享到微信
有用 30
打赏作者
无用
真知无价,用钱说话
7个人打赏
同时转发
评论(20)
只看楼主
热度排序
最新发布
最新互动
  • 只看TA
    2023-05-05 00:17
    还少一个云创数据,30cm的
    4
    0
    打赏
    回复
    投诉
  • 只看TA
    2023-05-04 22:41
    向量数据库为ChatGPT而生
    2
    0
    打赏
    回复
    投诉
  • 只看TA
    2023-05-04 22:37
    向量数据库是 LLM 下游的新数据库产品
    2
    0
    打赏
    回复
    投诉
  • T-Mac134
    春风吹又生的小韭菜
    只看TA
    2023-05-04 22:52
    新方向,明天择机上车,谢谢分享
    1
    0
    打赏
    回复
    投诉
  • 只看TA
    2023-05-05 13:50
    感谢分享
    0
    0
    打赏
    回复
    投诉
  • 只看TA
    2023-05-05 08:38
    这个牛
    0
    0
    打赏
    回复
    投诉
  • 只看TA
    2023-05-05 07:48
    感谢分享
    0
    0
    打赏
    回复
    投诉
  • 只看TA
    2023-05-05 07:10
    感谢老师分享
    0
    0
    打赏
    回复
    投诉
  • 只看TA
    2023-05-05 06:25
    启动即高潮
    0
    0
    打赏
    回复
    投诉
  • 只看TA
    2023-05-05 00:58
    来吧 拓尔思 向量数据库
    0
    0
    打赏
    回复
    投诉
  • 1
  • 2
前往