登录注册
广发计算机 | 深度报告解读:向量数据库-AIGC时代的必备基础工具
金融民工1990
长线持有
2023-12-11 21:26:12

会议要点

1. AI基石与市场前瞻

• 向量数据库是AI大模型开发和应用的基础软件,随AI大模型在各行业应用落地,有望快速成长。

• 当前向量数据库处于市场起步阶段,竞争压力小,所有行业参与者均可享受增长机会。

• 推荐新环科技的向量数据库产品,认为其技术积累和中立的市场定位将有助于商业化前景。

2. AIGC时代关键助手

• 向量数据库作为AI大模型训练的基础工具,能够处理和计算海量多元数据,提高特征提取的效率。

• 通过最近邻搜索算法构建索引,提升矩阵运算能力和搜索效率,扩展了运算维度,支撑大规模并行计算。

• 实际案例显示向量数据库已在AI模型训练中广泛应用,成功实现数据清洗、去重及私域模型解决方案。

3. AI大模型时代新宠

• 向量数据库与AI大模型集成后增强隐私保护:实际应用包括提升人力资源招聘流程效率、降低金融科技公司身份验证系统延迟等,表明企业用户开始重视数据库在AI集成中保护隐私的能力。

• 产品采用开源和云服务的商业模式:初创公司如菲利斯Vivian、iPhone主导,通过开源和上云方式培育社区,扩大覆盖;技术探索早的公司尚无明显壁垒。

• 商业化进展与定价:向量数据库产品按公有云SaaS模式计费,CPU数量、存储、容器大小为定价标准;diss推出两产品版本,极致轻量化和便捷部署形式吸引用户,逐步推进商业化。

4. AIGC时代基石

• AI大模型促进向量数据库发展,互联网公司具备全套生态支持能力,有助于产品竞争力及商业化拓展。

• 私有化部署满足B端隐私需求,公有云服务更适合室外场景;技术服务及时性和专业性是关键。

• 新环科技具备强大技术支持团队和市场经验,对于线下向量数据库销售具有优势。

会议实录

1. AI基石与市场前瞻

各位尊敬的投资人,我是广发计算机行业的分析师周元。在12月8日,我们发布了计算机行业的深度报告《向量数据库:AIGC时代的必备基础工具》。该报告分析了向量数据库的技术架构、海内外相关产品的应用现状、商业化机会和条件,以及独立第三方与大型科技公司之间的竞争关系。我们得出的结论是,向量数据库是开发和应用AI大模型过程中必备的基础软件,有望随着AI大模型在各行业的落地应用而迅速成长。

目前,向量数据库整体处于新兴市场的起步阶段,行业参与者能够享受下游需求带来的机会,同时行业竞争压力相对较小。我们最看重的是那些在技术领域有多年积累及提供配套标准化产品技术服务能力的公司,以及在产业链中持有中立定位的公司。基于此,我们推荐新环科技,并看好其向量数据库产品的未来商业化前景。

报告的第一部分主要介绍了向量数据库的技术原理、功能特点及具体应用场景。在AI大模型从原始数据训练到最终部署的过程中,需要经过数据预处理、特征提取、模型测试、训练监控与生产部署等多个环节。整个流程较为复杂,因此需要统一的软件工具进行管理。这种将AI模型开发到部署贯穿在一起的统一流水线软件,就称为MS产品。它在EI大模型技术出现之前就已存在,并在AI小模型的开发与应用中实现了数据处理和模型构建的自动化,集成测试评估和部署,从而保证生产过程中模型的连续性和加快模型迭代速度。

然而,AI大模型的出现对传统MS方法提出了新的挑战。首先是,AI大模型训练涉及的数据量巨大且数据类型众多,通常需要依赖计算机群体的分布式架构来训练。在此过程中,如何确保不同类型的数据在多台机器上的训练是稳定、可靠且持续的,成为了核心难题之一。其次,在应用环节,由于用户提问方式不够直接且提示词较为模糊,常导致人机交互过程中生成内容质量不高的问题。

2. AIGC时代关键助手

如何定位和检索用户关键词以及模型中能回答的具体内容是一个重要问题,我们需要借助这些工具来实现。一些厂商为了解决人工智能大模型在机器学习过程中的问题,采用了包括向量数据库在内的软件工具。向量数据库是专为处理海量多元数据的训练、以及在大规模计算集群上的调度而设计的,能够解决AI大模型全生命周期管理中的痛点,如内容的准确性、时效性和安全性等。

我们接下来将分为训练和推理两个阶段,来详述向量数据库的具体功能。在训练阶段,AI大模型需要处理的数据量巨大且类型繁多,不同类型数据之间的交互往往涉及数据格式转换等复杂操作。相关数据库能够将图像、音频、视频等各类数据转化成统一格式的张量数据,统一了数据格式后便于数据之间的交互和计算,显著提高了特征提取任务中的处理与计算效率。AI大模型训练过程中还涉及到复杂并耗时的数据检索过程。向量数据库通过基于最近相似性邻近算法,可以为不同的数据构建出索引,以此来提升搜索效率。

此外,向量化的数据将单一维度的运算扩展到高维度的矩阵运算,增强了单次运算的能力。向量数据库针对矩阵运算还提供了丰富的操作服务,例如通过批处理,显著地提高了随机访问和批量读取的功能。综合来看,通过AI算法工程师的实践和探索,向量数据库已被视为提高模型训练效率的必备工具。

实际应用中,我们已经看到很多成功案例,例如Acelas数据管理平台,通过接入Pinecone等向量数据库,实现了训练数据的清洗、去重和加工。另外和Q站合作,为客户提供私域大模型解决方案等。在推理阶段,基于公开数据训练的通用AI大模型往往难以覆盖专业性较强及最新资料,用户和通用AI大模型对话时,对于最新发生的事件常常难以给出回答。

此外,AI大模型在实际使用过程中,下游用户需要访问企业私域数据的同时,也需要防止企业隐私信息的泄露。在这种情况下,向量数据库可以充当外挂数据知识库,为大模型提供最新数据或者是企业客户独有的内部知识,而用户还可以设置向量数据库的访问权限,以限制AI大模型将数据用作训练语料。

为了便于理解,我们在报告中详细列举了如接入GPT-3的外接项目数据库的案例。今年3月,GPT-3引入了首批跨界插件系统,其中包括了能够弥补知识缺口的多个向量数据库,提供了统一的接口用于实现不同功能。一个简单的例子是,通常情况下,用户若问GPT-3“我的妈妈叫什么名字?”,这种用户个人信息对GPT-3来说是无法回答的。但是用户可以在诸如Vespa这样的向量数据库预先增加和编辑个人信息,如录入“我的猫叫Visa”。然后再将这个向量数据库接入到GPT-3上。此时如果问GPT-3“我的猫叫什么名字?”,GPT-3便能够给出正确的答案。最关键的是,如果用户将这个向量数据库从GPT-3上卸载,再去提问相同的问题,“我的猫叫什么名字?”,GPT-3则不可能回答,这证明了向量数据库中的数据得到了充分保护,并没有被大模型作为训练语料使用。总体而言,我们认为外接向量数据库可以将用户特定信息融入到与AI大模型的交互内容中,不仅极大地拓展了交互信息的范围,还确保了用户信息的私密性。这一特性很好地满足了垂直领域智能化升级过程中的需求。

3. AI大模型时代新宠

当前在实际应用案例中,我们看到联合拼多多与向量数据库领军企业进行合作,为客户提供私域大模型解决方案——帮助改善客户提供的提拉(TiLA)时代search向量搜索工具,例如为人力资源公司UKG提升招聘流程中数据搜索效率和资源对接的精准性。金融科技公司TXT依托向量数据库开拓的基础,构建的身份验证系统将端到端延迟,从原来的20分钟降至不到两秒。向量数据库的众多应用案例让我们看到,企业用户对数据库接入AI大模型后,保护用户隐私数据的能力越发重视和理解。

作为垂直领域智能化升级过程中的必备工具,向量数据库的特点正随着像微软365高级版、PPT企业版等标杆产品落地而逐步扩散。未来,每个领域智能化升级的快速进展将增强数据库等产品的成长确定性。在报告的第二部分,我们特别分析了目前市场上向量数据库产品的商业化进展和竞争格局。早期探索的公司,如几个初创公司PhiloDB、IvoryDB等,主要采用开源形式培育社区生态和云服务扩大用户范围。

近期以腾讯云、华为云和新环科技为代表的企业,在非结构化数据处理拥有一定技术基础下,也推出了自家的数据库产品。整体来看,向量数据库作为新兴技术,发展时间尚短,CompeteDB自2019年推出以来,随着AI大模型未衍生广泛应用前,早期产品需求较小,因此大多采用开源模式培育社区生态。开源技术既推动了行业进步,也缩小了公司间的技术差距。因此,早期开始技术探索的公司并未形成显著的技术壁垒和先发优势。

值得注意的是,新环科技、腾讯云、华为云在今年年初开始开发向量数据库,几个月已开发出产品。鉴于向量数据库面向计算集群、采用分布式架构,开发这类数据库需要对分布式数据库有技术积累。商业化方面,向量数据库公司普遍采用基于公有云SaaS模式,按使用时间收费,标准是基于CPU数量、存储容量、容器大小等用户使用的计算和存储资源定价。以Diss为例,有针对5人小团队的标准版和大企业的企业版,标准版是每小时0.1至0.2美元,企业版是0.2至0.3美元,若包月,则标准版是65美元,企业版是99美元。PhiloDB和华为云高C100G等都采用此类收费模式。

同时,公司如开飞和腾讯云还提供免费版产品供用户试用,面对整体行业下游需求还在预期阶段,未来商业化具有一定的潜力。例如腾讯云官网上可以免费试用相应数据库VIP一个月,吸引用户尝试。从10月份sat(可能为产品名称误译,应修正)正式上线至11月中旬,这大约一个月时间内,麦克DB(可能为产品名称误译,应修正)已为超过1000家客户提供服务,包括销售力和搜狐,为后续收费奠定了坚实的客户基础。

最后一种模式是以新环科技为代表的独立第三方公司,采用软件授权模式收费,满足国企、央企及金融机构的付费习惯。独立服务器上部署软件包并一次性收费,向量数据库产品的市场均价预计是15万一套。由于其分布式部署方式,客户数据量增长将导致持续的需求变化,销售量预计将随用户数量增长。新环还推出了社区版,通过软件轻量化和便捷部署吸引使用者,进一步推广产品。

总体来看,向量数据库的商业化初期,免费产品和便捷部署策略正助力功能推广。AI大模型在训练和推理过程的应用效果被广泛认可后,商业化进程预计会加速,支付意愿有望提高。在竞争格局方面,区分大型互联网和独立第三方企业进行分析。大型互联网公司开发向量数据库起初为内部业务需求,如腾讯产品VIP源自欧拉向量引擎,广泛用于腾讯图像、视频等非结构化数据检索任务。截至2023年11月,服务腾讯内40多个业务,日请求量达到1,600亿次,显著提升了各项业务指标,如QQ音乐人均听歌时长提升3.2%,QQ浏览器成本减少37.9%,腾讯视频用户有效曝光时长增加了1.74%。因而,互联网公司在满足内部业务需求的同时,也优化了数据库产品性能,为其服务外部市场奠定了基础。

4. AIGC时代基石

此外,在AI大模型的使用场景中,向量数据库为互联网公司提供了一个优秀的环境以提升产品性能。例如,华为的相应数据库高斯已经与盘古大模型对接,增强了其缓存能力。我们认为互联网公司拥有全套生态支持能力,包括盘古大模型在内,为相对应的数据库产品的竞争力及商业化拓展提供了保障。

然而,我们也需要认识到,向量数据库在具体的场景应用中,可能会遇到实现大规模商业化的挑战。向量数据库可以满足B端客户在使用AI大模型过程中,不泄露隐私数据的要求,因此涉及隐私数据时,客户通常会选择私有化部署。例如,在金融领域,接入AI大模型所需的数据可能包含身份信息、资产信息和交易数据。

当在室内场景中使用这些数据库时,更倾向于采用基于公有云的解决方案,而非线下布局。我们同时注意到,因为向量数据库发展时间较短,其功能不一定能广泛满足各行业需求,在商业化落地中可能无法达到客户的定制化要求。在这种情况下,配合标准化产品的技术服务的及时性和专业性,将成为数据库公司拓展新客户和维护老客户的关键。

我们认为,拥有大规模且专业的技术支持团队的公司,在向量数据库的商业化落地中将更具优势。截至2022年12月底,新华科技已经拥有410人的技术支持团队,这使得公司在新产品推广、商业化策略制定、及客户沟通方面积累了丰富的经验。对于线下场景的数据库销售,新华科技在这方面具有一定优势,而互联网公司开发的数据库应与公有云平台的整体发展方向保持一致。对于线下部署,公司通常需要权衡人力成本和客户使用公有云服务的可能性来做出决策。

中长期来看,云计算公司和数据库供应商之间存在合作的可能性。从海外市场的经验来看,向量数据库通常提供于云平台上,以SaaS服务的形式。我们认为,如果第三方向量数据库公司的产品足够具有竞争力,可以带动相关软硬件基础设施的销售。

互联网公司一旦资源互补,产业合作的可能性将大幅增加。总体来说,在线下应用场景中,以腾讯云为代表的云计算公司,和以新环科技为代表的独立第三方公司,尽管存在一定的竞争关系,但由于向量数据库目前处于新兴市场的早期阶段,行业参与者往往可以凭借有竞争力的产品实现从0到1,再进一步开拓市场份额,享受下游市场快速增长带来的机遇。

因此,基于以上分析,我们推荐拥有强大的大数据产品技术能力、配套的技术服务能力,并在产业链中保持中立地位的新环科技。我们看好其向量数据库产品的未来商业化潜力。风险提示方面,首先,商业化进程依赖于下游应用的拉动,而这可能需要一定时间。各垂直领域智能化升级的进度可能受到通用AI大模型产品成熟度的影响,存在延后的风险。向量数据库的B端大规模采购时间点存在一定的不确定性。其次,科技巨头对向量数据库领域的进入可能会导致行业竞争激烈。最后,技术的开源性可能使得中小企业也能进入这一领域。

以上是我对计算机行业深度报告的解读,特别是向量数据库在AIGC时代作为一个必备的基础工具,其技术架构、商业机遇、与条件,以及各厂商产品、生态、竞争格局等内容的完整分析。请参考我们发布的研究报告,感谢各位投资者的聆听,并欢迎与我们交流和联系。谢谢。

作者利益披露:转载,不作为证券推荐或投资建议,旨在提供更多信息,作者不保证其内容准确性。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
光线传媒
S
新经典
S
朗玛信息
工分
2.37
转发
收藏
投诉
复制链接
分享到微信
有用 0
打赏作者
无用
真知无价,用钱说话
0个人打赏
同时转发
评论(1)
只看楼主
热度排序
最新发布
最新互动
  • 1
前往