多模态大模型技术快速发展：商业应用与投资机会-韭研公社

登录注册

多模态大模型技术快速发展：商业应用与投资机会

作手德一

明天一定赚的龙头选手

2023-12-21 22:04:13

多模态技术的发展与投资机会

近期多模态技术取得了加速发展，包括新模型的推出和功能的升级。市场和产业界对多模态相关信息和模型的进展给予了高度关注。海外大模型持续迭代并具有强大的落地性，国内大模型格局逐渐清晰，应用开始有起量趋势。科技在各类重要会议中的地位进一步凸显，建议投资人继续关注AI领域的投资机会。报告推荐了昆仑万维、万兴科技、美图等标的，并指出多模态技术对电商、游戏、教育、营销、体育等领域的AI应用有利。此外，建议关注授予AI视频应用发展的多模态技术公司，如虹软科技、当虹科技等。

多模态数据和视觉算法的发展

多模态数据对模型发展至关重要，大规模高质量的多模态数据集的出现与算法突破相互推动。视觉算法在泛化性、可提示性和模型生成效果方面取得突破，加速了视觉模型的发展。文生图领域在2D图像生成方面引领行业前进，扩散模型成为主流。文生图行业的生态包括开源和闭源应用，其中具有先发优势的应用通过用户反馈数据不断迭代提升产品体验。

多模态大模型的应用与进展

多模态大模型是结合文本、图像、音频等多种模态信息进行学习和理解的人工智能模型。当前的商业模式主要面向有文生图刚性需求且付费意愿较强的用户，如设计师和电商从业者。通过降低使用门槛和提高定价，该模型实现了盈利。与其他竞争对手相比，这些玩家在生态上更胜一筹，但在用户留存上可能略逊一筹。在视觉生成领域，开源模型的定价较低，但客户付费持续性较差。而视频生成等领域的技术难度和复杂度更高，发展相对较慢。国内公司在多模态方向上有布局能力，并有望在技术与应用同步发展阶段取得突破。投资建议方面，建议关注多模态技术布局、受益于多模态技术进步的AI应用以及受益于AI视频应用和3D资产生成的多模态技术公司。

多模态大模型在AI应用中的几种主流形式

多模态大模型在AI应用中有多种主流形式，包括问答、文本图像匹配、聊天机器人等。其中，谷歌的Gemini模型是目前最好的多模态大模型，在业界和行业影响较大。另外还有snap chat的聊天机器人、以及AI生成图像和语音的应用。多模态大模型在数字人、视频生成、音乐合成等领域也有广泛应用，未来有望实现更接近真人创作的音乐生成。

多模态大模型在不同行业的应用案例

包括服装设计、医疗和娱乐场景。其中提到了开了公司利用多模态大模型增加了实际运营利润，以及谷歌发布的GBD4.5和meta的Anymore等最新的多模态大模型。另外还介绍了多模态大模型在生物数据和AI医疗方面的应用前景，以及未来可能出现的跨语言音频和视觉视频、3D等多模态功能的发展。

多模态大模型的挑战和解决方案

多模态大模型面临的三个挑战：新技术路线与传统技术路线的区别、如何有效利用大语言模型的优势、多模态和全模态编码器的统一。其中，第一个挑战涉及通过不同模态的对齐和融合来实现高效推理；第二个挑战是如何利用大语言模型的推理能力，并通过更大的图像编码器来提高图片和文本的理解能力；第三个挑战是如何统一编码不同模态的数据，并提出了使用共享的编码器来提取特征的方法。目前，在多模态和全模态编码器方面，已经有一些前沿研究，如meta transformer，但仍存在收敛问题。然而，谷歌的german已经成功地使用多种模态来训练共享的编码器。未来，只要增加数据量和参数量，这种技术路线有望取得突破。

多模态大模型的发展及应用

多模态大模型在语音、图片和视频等多个领域的应用，以及在电商媒体和营销、具身智能和自动驾驶等方向的想象空间。虽然国内多模态训练受限于算力和研发时间，但在语音合成和理解方面已接近海外技术。在电商媒体和营销领域，多模态大模型可以实现定制化的内容生成，具有巨大的市场潜力。在未来的3到5年，具身智能和自动驾驶领域可能会迎来爆发式的应用，多模态大模型在这些领域的融合将产生更深层次的效果。

未来一年多模态技术和应用的突破

在未来一年，多模态技术和应用可能会在文本、图片、视频和3D生成方面实现重大突破。特别是视频生成和3D生成在AI宣传视频和视频理解方面可能带来革命性的进展。此外，图片进一步升维到3D，并与nerve相关的3D表达方式相结合，将有利于多模态大模型的融合。这些突破将为投资人带来商业机会，尤其是在国内，中长期仍保持乐观，短期可以关注头部公司和A股的投资机会。

多模态技术的发展趋势是什么？多模态技术的商业模式和发展前景是什么？多模态技术的发展对AI领域有什么影响？

多模态技术正在加速发展，包括跨语言、音频、视觉、视频和3D的多模态的功能，以及复杂的推理和跨模态的理解能力。市场和产业界高度关注多模态相关的信息和模型的进展，认为AI未来将是很长一段时间里面一个非常重要的投资主线。多模态技术的商业模式和发展前景是带动AI应用的用户增长，大模型的价值进一步释放。多模态技术未来有利于电商、游戏、教育、营销、体育等领域的发展。多模态技术的发展对AI领域的投资机会有积极影响，推荐关注多模态方向的变化，包括昆仑万维、万兴科技、美图等公司。同时，多模态技术也未来有利于电商、游戏、教育、营销、体育等领域的发展，推荐关注焦点科技、掌趣科技、中文在线、盛天网络等公司。

多模态数据集的搭建和高质量数据集的出现对多模态模型的发展有什么影响？

多模态数据集的搭建和高质量数据集的出现对多模态模型的发展非常重要，往往与算法呈现同步发展的一个趋势。大规模的高质量的多模态数据集的出现，往往推动了多模态模型的发展。

journey在文生图行业中的地位如何？

journey是先于spotty children更早推出的一个基于扩散模型的应用，具有一定的先发优势。它的成员数量已经超过1700万人，是disco上最大的服务器之一，年收入也已经超过了1亿美金。

2D图像生成在视觉模型领域的地位如何？

2D图像生成引领着整个行业前进方向，因为它的数据和算法要求相对较低，更容易实现技术突破。

journey的商业模式是什么？

journey主要面向有文生图刚性需求的用户，如专业设计师和电商从业者。它采用prompt交互方式，降低了使用门槛，同时设置了高于开源模型的定价，具有更强的议价能力。去年已实现盈利。

视频生成模型有哪些突破？

runway、PIKA1.0等视频生成模型在效果上都有明显突破，有望推动行业加速发展。

国内公司在多模态方向上的优势是什么？

国内公司在多模态方向上的产品运营和迭代实力更强，有望实现技术跟应用同步发展。

多模态技术会与哪些领域产生共振？

多模态技术可能会与AR产生共振，驱动新的生产力工具或C端娱乐应用的出现。

多模态大模型的任务分类有哪些？

多模态大模型的任务分类包括多模态生成、问答、文本图像匹配、文本图像生成等。

多模态视频生成在哪些方面已经接近落地水平？

在数字人生成方面，多模态视频生成已经接近落地水平。

多模态大模型在TTS语音合成方面有什么优势？

多模态大模型在TTS语音合成方面可以更好地进行语义理解，断句和停顿更接近真人发出的声音感觉，情感和声调语调方面也可以通过语义理解来分配不同的侧重点和重音。

AI合成音乐在哪些方面已经取得了进展？

AI合成音乐已经可以通过多模态大模型生成无尽的音乐流，未来有望做到接近真人创作的水平。

多模态大模型在哪些垂直细分行业可以应用？

多模态大模型可以应用于服装设计、医疗等领域，利用其特定领域的能力来做特定企业、行业的应用。

生物数据的多模态大模型在哪些方面有应用前景？

生物数据的多模态大模型在药物发现和AI医疗的研发工作中有很大的应用前景。

谷歌的多模态大模型发布证明了什么？

谷歌的多模态大模型发布证明了加大数据量和加大参数量的尝试是可行的，其他行业也会加速往更大参数量和更大的数据量去进行尝试。

多模态大模型在娱乐场景下的应用情况如何？

在娱乐场景下，多模态大模型已经非常接近落地水平，比如g two的应用和皮卡做的娱乐视频已经可以发布。

GPT4.5模型的多模态功能有哪些升级？

GPT4.5模型的多模态功能会得到一个非常大的升级，包括跨语言音频和视觉视频、3D的多模态功能、更复杂的推理能力和更复杂的矿模态理解能力。

GPT4.5模型和GPT4V模型有什么区别？

GPT4.5模型和GPT4V模型的区别在于GPT4.5模型在最开始的编码环节就已经做了多模态的数据的融合，而GPT4V模型是在浅层和深层次分别编码以后再在深层次的逻辑上去进行融合。

GPT4.5和谷歌的Gemini的技术路线有什么不同？

GPT4.5和谷歌的Gemini的技术路线不同在于TPT4.5和谷歌的Gemini在输入层就用同一套编码器来进行多模态的编码，而meta的any any more是一套新的在输入层就进行编码的一个技术路线。

meta的多模态AI大模型预计什么时候发布？

meta的多模态AI大模型预计在明年年初发布，可能会集成进meta的AR智能眼镜里，用于现实生活中的物体的视觉对的识别。

大模型如何利用大语言模型的训练优势？

大模型利用大语言模型的训练优势可以使用更大的图像编码器进行训练。

多模态和全模态用统一的编码器和解码器的难点是什么？多模态统一的最大挑战是什么？

多模态和全模态用统一的编码器和解码器的难点在于不同模态的数据分布和结构差异很大。多模态统一的最大挑战在于如何让不同模态进行有效的对齐和融合。

认为多模态训练需要更多算力，怎么理解？

多模态大模型从不同模态看，差距已经很小。但如果最通用的多模态大模型需要大量算力，差距可能比大语言模型更大。但跨模态的多模态大模型，如语音，已经接近国外水平。

在多模态领域里面最值得期待的应用是什么方向？

在电商媒体和营销领域，多模态大模型可以做出更多定制化的细分的长尾的流量和应用。

在未来1到2年，哪个方向可能会有一些比较大的突破？

在AI宣传视频或者视频理解方面，特别是视频理解方面，可能会出现一个非常大的一个突破。图片进行升维，升维到3D，特别是跟nerve相关的这种3D的表达方式，可能会更有利于我们这个多模态大模型的一个融合。

未来一年哪些多模态技术应用具有较大突破概率？

以视频和3D为核心的多模态技术和应用具有较大突破概率。

作者利益披露：原创，不作为证券推荐或投资建议，截至发文时，作者不持有相关标的。

声明：文章观点来自网友，仅为作者个人研究意见，不代表韭研公社观点及立场，站内所有文章均不构成投资建议，请投资者注意风险，独立审慎决策。

昆仑万维

工分

2.77

投诉

复制链接

分享到微信

有用 2

打赏作者

无用

真知无价，用钱说话

0个人打赏

同时转发

只看楼主

热度排序