登录注册
向量数据库先锋”Zilliz创始人:大模型时代,需要新的“存储基建”
谁与争锋
蜜汁自信
2023-05-11 19:08:49

向量数据库先锋Zilliz创始人大模型时代需要新的存储基建

向量数据库先锋Zilliz创始人大模型时代需要新的存储基建

利好300366创意信息数据库.云创数据同方股份星环科技

2023年05月11日 
向量数据库先锋Zilliz创始人大模型时代需要新的存储基建
深度了解向量计算和向量数据库的价值这是高瓴投资的向量数据库公司
华尔街见闻
2023-05-10 19:53北京鲲鹏计划获奖作者,华尔街见闻官方账号,优质财经领域创作者
关注
大模型在以日更进展的同时不知不觉也带来一股焦虑情绪估值 130 亿美元的 AI 写作工具 Grammarly 在 ChatGPT 发布后网站用户直线下降AI 聊天机器人独角兽公司 Character.AI 的自建大模型在 ChatGPT 进步之下被质疑能否形成足够的竞争壁垒 ......
ChatGPT Plugins插件发布之后更多创业者开始担忧大模型的技术进步会把自己卷入打击射程瞬时抹掉自己所在领域的技术积累和优势
我们好像陷入了大模型所带来的WTF 综合症——在过山车般的技术加速度中人们会在what the 的惊讶和what's the future的思索之间反复横跳
冷静下来思考在底层大模型的国产化浪潮以及应用层的红红火火之外大模型领域还有什么是值得被关注的
向量数据库Vector database在我们与行业人士的各种交流中屡被提及它被看做 AI Infra 中的关键一环这种专门用于存储索引和查询嵌入向量的数据库系统可以让大模型更高效率的存储和读取知识库并且以更低的成本进行 finetune模型微调还将进一步在 AI Native 应用的演进中扮演重要作用
向量数据库之于大模型的价值和意义究竟是什么它会不会被大模型本身的进步吞掉
围绕着大模型的软件开发范式将会被如何构建向量数据库能发挥的作用是什么
带着这些问题极客公园找到了Zilliz 创始人& CEO 星爵进行交流Zilliz成立于中国上海总部在美国硅谷于2019年开源了全球首个向量数据库产品 Milvus它在 GitHub 上获得了超过 1.8 万颗 Star在全球拥有超过 1000 家企业用户成为目前全球最流行的开源向量数据库而早在 2022 年Zilliz 就完成了累计超过 1.03 亿美金的 B 轮融资估值达到惊人的 6 亿美金
图|Zilliz 在 SIGMOD21 发表的论文Milvus 是全球真正意义的第一款向量数据库产品
在大模型热潮之前整个向量数据库市场一年只有几亿美元直到去年 ChatGPT 推出如 killer app杀手级应用一般拉高了市场天花板也让大模型和向量数据库开始真正出圈
在今年 3 月的 NVIDIA GTC 大会黄仁勋首次提及向量数据库并强调对于构建专有大型语言模型的组织而言向量数据库至关重要而 Zilliz 也被官宣是 NVIDIA 的向量存储的官方合作伙伴
紧接着OpenAI ChatGPT plugins 发布的官方文章中Milvus 和 Zilliz Cloud 同时作为首批插件合作伙伴被提及成为唯一一家开源项目与商业化云产品同时入选的向量数据库公司而在近一个月之内向量数据库迎来了融资潮QdrantChroma 和 Weaviate 纷纷获得融资而 Pinecone 也正式官宣了新的 1 亿美金 B 轮融资估值达到了 7.5 亿美元 ......
图| Zilliz 创始人 & CEO 星爵
从 3 月 到 5 月我们与星爵一起见证了向量数据库从默默无闻到成为行业大热的完整过程并和他陆续探讨了大模型的演化向量数据库的价值和意义以及 AI Native 应用演进等一系列问题
以下是对话精选由极客公园整理
01 大模型和小模型的混合时代
极客公园在你看来大模型是什么
星爵大模型是一个智能处理器是一个大脑传统处理器是人工去编排电路而大模型是用神经网络去编排电路
大模型未来发展会更加强大一方面会有中央处理的大模型像 ChatGPT 的云端大脑后面有数万块 GPU它会奔着更大规模更强能力的方向发展但它的缺点也很明显能耗和成本也比较高另外一个维度它会往更高的效率更低的能耗比方向走会有小模型出来像 Dolly 模型Databricks 发布的拥有 120 亿参数类 ChatGPT 开源模型每个人手提一个大脑
极客公园这个结论是怎么得出来的
星爵我是站在人类的科技发展史去看的而不是大模型本身
大模型本质是开启了人类智能计算的一个时代但是计算能力一定会分化的不可能说只有一个
人类的计算最终都是从大分化成小的不见得是一个适合所有产品的需求计算机最开始是主机时代是在大机房里面的大型机而现在 ChatGPT 本质也是如此对于这种计算方式来说缺点明显响应很慢率也不高
出现小型化的趋势是因为功能的需求在分化如果你要办公你买一个上网的笔记本电脑就可以了不需要一个超级计算机
极客公园会像主机到微机的时代演变有清晰的阶段划分吗还是说会是一个大模型和小模型混合的时代
星爵从大模型到小模型的大量涌现这个演进其实就花了 6 个月人类文明的进化已经变得更快了现在如果你想跑一个微软出的 Deep Speed Chat 这种小模型在笔记本上就行
你可以认为小模型就相当于现在的 PC大模型是现在的超级计算机
我觉得大模型和小模型两者会并存下去需求分化的本质背后并不是一个技术问题而是资源如何最优化配置的问题如果说集中式的管理是最优的话那么一定会做集中式的
极客公园大模型和向量数据库是什么关系大多数向量数据库公司其实在大模型热潮出现前就有了比较好奇大模型给向量数据库带来了什么
星爵在我看来大模型是新一代的 AI 处理器提供的是数据处理能力那么向量数据库提供就是 memory是它的存储
向量数据库之前应用比较分散ChatGPT 的出现让向量数据库迎来了 killer app 时刻一下子把行业的天花板拉高了几个数量级把向量数据库面向的开发者从几万提升到全球几千万就像过去做移动开发和应用开发可能大家都会人手一个 MongoDB 数据库以后也会人手一个向量数据库
极客公园目前大模型发展非常迅猛会不会把向量数据库提供的价值直接被吞到大模型的体系里
星爵不管是大模型还是小模型它本质上是对全世界的知识和运行规则的一个编码是对我们人类所有数据的一个压缩
但很难真的把所有数据放到大模型里面比如有一种观点ChatGPT 是一个相当高效的压缩编码方式但它并不是无损压缩并不能拥有所有知识这个过程必然带来熵减和信息损失如果把所有信息都编码到神经网络里面去那么神经网络就会变得特别臃肿参数规模会巨大无比从而导致运行缓慢所以不能全放进去这意味着它可能需要外部的存储
在计算机结构中也有类似的情况CPU 里会有一个片上存储 SRAM一般会做得比较小因为片上存储的价格比内存 DRAM 要贵 100 倍比磁盘要贵 1 万倍神经网络就是大模型的片上存储更大规模的模型拥有更多的片上存储但是用神经网络来存储数据是相当昂贵的会导致网络规模的急剧增大所以大模型也需要一种更高效的数据存储方式这就是神经网络外的片外存储向量数据库就是它的片外存储如果运行时发现有信息不知道就到向量数据库里面来取而向量数据库的存储成本比存到神经网络的成本要低 2 到 4 个数量级
极客公园你拿硬件做了类比但是我们也可以看到有芯片公司是在做存算一体的架构存储和计算放在一起
星爵本质上每一种计算都需要存储计算和存储是两个最基本的抽象但它们是可以相互转化的可以用存储换计算也可以用计算换存储在达到一个更好地投入产出比的过程中需要有一个平衡
人类的第一个计算机就是存算一体的后来为什么要分开因为效率和成本为什么说大模型不能够完全取代向量数据库这是因为向量数据库的存储成本比大模型要低一个 1 千倍到 1 万倍就看你要不要这么做而已历史上存储永远比计算便宜计算也在降价但你发现存储一直更便宜
极客公园但这个逻辑其实是硬件的逻辑软件也会如此吗
星爵软件和硬件是相辅相成互为支撑的软件里为什么要把中间计算过程保存下来不重算一次为什么要做缓存要保存中间结果因为保存是为了少算少算的原因是用空间换时间用存储换计算资源这在软件里面是最经典的一种设计模式之所以软件这么设计也是硬件特性所决定的存储比计算要更便宜
02 重新理解向量数据库的价值
极客公园最近有个玩笑说上一波投 AIGC 的 VC 公司基本上都后悔了意思是在大模型之下很多应用层公司的壁垒都被抹掉了私域数据会不会是构成竞争力的核心向量数据库是不是可以在这个方向起作用
星爵帮助用户管理私域数据确实是目前向量数据库提供的核心应用场景很多公司和个人不愿意让大模型拿到自己的数据
那么我们怎么样利用向量数据库和 OpenAI 这种大模型厂商交换数据呢首先说一点大模型本身是可以将互联网上的公域数据都爬到对于私域数据可以用向量数据库先做好编排转成向量数据库里的向量现在要从私域数据的知识库里要找到问题的回答可以利用向量数据库的相似查找能力精确定位到库里的相关数据然后把这几个信息编成一个 prompt
尽管 prompt 的容量理论上可以无限但这样效率太低并且也难以实现通过以上这样的方式就可以很容易控制是 2000 个 tokens或者 8000 个 tokens把它传给大模型给出一个答案所以说通过向量数据库可以用私域数据和大模型做一个增强和互补
极客公园大模型不会把私有数据都拿走
星爵国外这一波 AI 起来之后还有一个特别好的点就是把隐私数据保护都搞清楚了
为什么有那么多开发者敢用那么多百亿美金的公司愿把自己的服务接到 OpenAI 里面去就是 OpenAI 已经保证 prompt 只能作为 input输入不能存不能训练不能学习要不然我把数据都给你了你学完以后把我踢掉怎么办国外已经在公有数据和私有数据之间划出了一个很大边界我相信中国最后也会立法走到这一步的
极客公园向量数据库在大模型中还有什么应用
星爵短期还有一种应用方式用向量数据库给大模型更新数据
其实这也是个成本的考虑模型的 finetune微调更新的成本是远大于使用向量数据库数据做存储
不管是大模型还是小模型的 finetune 都比较慢除非你做一个超级无敌计算机实时获取新数据也实时更新模型但没必要像 ChatGPT 训练所用的数据是截止到 2021 年 9 月后面的事情它就不知道了会给出错误答案所以通过用向量数据库给大模型更新数据也是可以一定程度上解决大模型胡言乱语的问题
极客公园Zilliz 还推出了 GPTCache要给 ChatGPT 做缓存层这个怎么理解
星爵缓存也是个很好的应用场景我们认为全球的 CDN 和缓存会有重做一次的机会未来 AI 的公共场景中信息交换的方式会发生变化会向更智能更偏向语义这个方向转变并且消化的是更加非结构化的数据以前的 CDN 是基于精确条件的查询现在可以基于一些近似条件的查询未来需要一个更智能的一个 CDN更智能的一个缓存
极客公园最近很火的 AutoGPT 和向量数据库也有关联向量数据库在其中扮演了什么角色
星爵向量数据库是 AutoGPT 中最为核心的组件之一我们的产品 Milvus 已经接入到了 AutoGPT 中这给我们带来了很大的流量你可以这样理解AutoGPT 等于 ChatGPT 加上向量数据库通过向量数据库让 AutoGPT 具备了长期记忆能力它知道之前搜的是什么把历史全部记进去了不然每次查询是没有上下文的
极客公园斯坦福大学和谷歌联手发布的论文Generative Agents: Interactive Simulacra of Human Behavior也引起了行业强烈关注实验构建了一个虚拟小镇小镇有 25 个有记忆的虚拟人他们可以结合自己的人设在社交活动中产生不同的决策和行为这让我们看到了现实版的西部世界构建的可能性这个实验里面非常重要的是虚拟人的记忆机制向量数据库能做吗
图|虚拟小镇
星爵AutoGPT 加一个人物的头像就可以打造一个最简单的智能 Avatar以后各种智能体都要有个记忆而记忆是向量数据库来提供这个想象空间蛮大的那它可能是个什么机会呢还真不好去定义人类历史上首次出现拥有独立记忆体的虚拟人这是一个历史性的机会对向量数据库的需求会有几万倍的增长
这本质上还是使用向量数据库作为大模型的 memory应用在了虚拟智能体这个场景我觉得慢慢地大家在达成共识只要做大模型的应用就会用向量数据库来做记忆体
极客公园大模型要想处理复杂任务首先要有记忆能力然后基于记忆上下文做推理而向量数据便是记忆体那是只有向量数据库就够了还是需要再加一些其他的
星爵基本就够了因为所有大模型和 AI 里面的数据交换都是用向量这个本质上是说片外跟片内的存储数据的交换格式是统一的这也就是说为什么不能拿 Oracle 去做智能体的记忆ChatGPT 也没有选 MongoDB也没有选 Oracle因为它们都是不适合大模型的
极客公园是不是可以这样理解把大模型看成是一个基于自然语言编程的新型计算机向量数据是它最原生的数据向量数据库是它最原生的数据库这其实是一个完整的体系
星爵是的神经网络的确是向量因为它所有的信息传输都是向量每一层的参数也都是向量所以能看成是个以向量embedding为基础架构的一套新的计算体系结构
这个体系结构简单说来就是CVP Stack其中C是 ChatGPT 这类大模型负责向量的计算V是向量数据库vector database负责向量的存储P是 Prompt Engineering负责向量的交互
03 AI Native 时代的应用演进
极客公园对于 AI Native 时代的应用开发来说什么变得更重要了什么不重要了
星爵在大模型开发时代我率先提出了前面提到的CVP Stack概念现在也逐渐被广泛接受了
这里要特别指出的是我对于P的定义和理解会更加开放一些不限于 prompt engineering它本质上是个创造的过程而不是说简单的写 promptP的核心是提问能力或者说是找到需求找到市场的一个能力比如说你如何设计你的用户流程如何找到一个好的商业化落地的场景这都是包含在P
对于现在的开发者来说不管你是产品经理还是前端工程师用 ChatGPT 加上向量数据库写好 prompt再用 LangChain 把项目串起来基本用上一周就可以写个应用出来这极大地降低了大模型应用的开发成本
极客公园面向大模型时代你对 Zilliz 这家公司更准确的定义是什么
星爵我们是一家 DB for AI 的公司大概 3 年前我们发了这个领域第一篇 SIGMOD 论文的时候提出了这个概念但它是一个学术界的讲法如果按照更好理解的方式我们其实的是一个 AI Native 的数据库公司
过去 10 年最大的机会是做 Cloud Native云原生的 Data Infra产生了 Snowflake 这样的巨头未来 10 年最大的机会是做 AI NativeAI 原生的 Data Infra像 Zilliz 这样的向量数据库公司将会迎来历史性机遇
极客公园这一波大模型创业应用层创业者被问得最多的是怎么去建立自己的竞争壁垒而不被大模型本身的进步淹死你怎么看壁垒这个问题
星爵应用层其实是有壁垒技术壁垒变低了那么其他的壁垒就变高了我觉得创意和运营变得更重要了
极客公园与中国关注应用层和大模型层不同美国在 AI Infra 上迎来了开源的繁荣AI Infra 的竞争格局会是怎么样中国接下来在 AI Infra 上有什么值得期待的吗
星爵Infra 是一个赢者通吃的市场像 Snowflake 在云原生数据库领域就是一马当先
我觉得中国在这一块还没开始中国大模型比国外大概落后了半年Infra 的话我觉得中国可能还会落后半年到 1 年我觉得 AI Infra 在接下来的半年里会有一个史无前例的快速发展
04 爆火背后的坚持和运气
极客公园3 月的 NVIDIA GTC 大会上黄仁勋强调向量数据库对于大模型至关重要还宣布了你们是 NVIDIA 的向量数据库的合作伙伴这中间发生了什么故事
图|NVIDIA GTC 大会黄仁勋首次提及向量数据库并强调对于构建专有大型语言模型的组织而言向量数据库至关重要
星爵我们在创业之初就坚定地认为 AI 时代的计算一定是异构的也一直在坚持包括 GPU 加速在内的异构计算的技术路线
NVIDIA 是在去年下半年看到整个 AI 的发展趋势中向量数据的处理会越来越重要非常希望更多的企业能够把 GPU 加速用起来他们在全球范围内调研和接触向量数据库领域的公司和团队但也发现真正能够在异构计算上面有布局有实力的只有我们一家
NVIDIA 在深入地了解我们之后也成为了我们 Milvus 开源社区里一个很重要的贡献者除了共同发布 GPU 加速向量数据库NVIDIA 还派了几名的工程师专门给 Milvus 贡献代码
此外NVIDIA 还有一个用 GPU 加速的开源推荐系统框架 Merlin它把 Milvus 也做成 Merlin 中的一个关键部件帮推荐系统去管理下面的数据现在 NVIDIA 不仅仅是我们的合作伙伴同时也成为我们的一个大用户
极客公园OpenAI 又是什么样的故事我看到在公布 ChatGPT plugins 发布的官方文章中Milvus 和 Zilliz 是首批的合作伙伴贡献了向量数据库插件
图|OpenAI 发布 ChatGPT plugins 的官方文章中Zilliz 的产品被提及了两次
星爵OpenAI 的话就更加简单了一年前就已经有一些合作了他们和我们说要做一个平台就是 ChatGPT plugins看到我们的向量数据库是全球最流行和最具开发者社区影响力的因此希望加入最开始我们的心态很平和觉得是基础的开源兼容合作但 plugins 发布后我们获得了来自大模型领域开发者和 GPT 用户群体的空前关注这个是我始料未及的
极客公园既然向量数据库这么重要会不会担心国内别人再做一个向量数据库
星爵说实话我们很欢迎因为向量数据库还处于发展的早期阶段还需要更多的市场教育
极客公园对于为什么是你们这个问题你是怎么思考的
星爵我也想不到今年会有机会和大家都去谈向量数据库之前我每年都跟别人讲向量数据库是接下来特别牛逼的事情但大部分人听完之后说有趣你有这个想法和愿景就好好干
现在回头看没有坚定的愿景和长期主义的坚持我们不可能走到现在
当然一个成功的企业也需要有些好的运气比如说我们历史上每次融资都能够遇到一些拥有相同愿景坚持长期主义的投资人我们今年开始准备做商业化刚好遇到大模型的iPhone 时刻一下子把我们推到了聚光灯下之前有人会怀疑我们的商业化潜力但现在有人和我说 Zilliz 想不挣钱都很难
很多时候你坚持在做一些难的事情但是很多时间点你没有赶上你可能会死因为其实很多优秀的企业也是这么死掉的尽管它的产品和技术很好但它跟市场经济发展的趋势不吻合跟用户需求爆发的时间点不吻合
对于可以掌控的那我们就拼命去做成功的必要条件而有些是无法控制的对我们来说的话很感恩这种运气
极客公园所以你是怎么看自己的是长期主义的胜利者
星爵幸存者更恰当一些
极客公园大模型给向量数据库带来的是什么程度的加速
星爵是指数级的增长过去 6 个月开发者的增长量大概能顶得上我们过去三年的
这是一个向量数据库开始疯狂增长的时代也是 AI-native 数据库未来十年高速增长的开端
本文作者王式来源极客公园原文标题对话 Zilliz 星爵大模型时代需要新的存储基建

作者利益披露:转载,不作为证券推荐或投资建议,旨在提供更多信息,作者不保证其内容准确性。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
中国高科
S
国新文化
S
同方股份
S
云创数据
S
荣信文化
工分
2.70
转发
收藏
投诉
复制链接
分享到微信
有用 2
打赏作者
无用
真知无价,用钱说话
0个人打赏
同时转发
评论(1)
只看楼主
热度排序
最新发布
最新互动
  • 只看TA
    2023-09-17 19:16
    谢谢分享
    0
    0
    打赏
    回复
    投诉
  • 1
前往