海外科技巨头多模态模型能力大幅升级-韭研公社

登录注册

海外科技巨头多模态模型能力大幅升级

夜长梦山

2024-02-17 21:50:21

海外科技巨头多模态模型能力大幅升级，OpenAI计划推动7万亿美元芯片项目，关注海外映射与上游国产算力链事件①：2月15日，OpenAI推出其首个文生视频模型Sora，并在官网放出近50个视频案例。相比于之前的同类模型，Sora能力有两方面显著提升：1）更长的视频生成时长：Sora最长可生成60秒的视频片段，而其它模型普遍不到10秒。2）更好的连续性和一致性：在更长的内容中，Sora保持了出色的镜头稳定度和单视频多镜头的能力。据OpenAI介绍，Sora不仅能够理解文字提示的含义，同时还能理解物体如何存在于物理世界之中，这意味着视频生成模型具备模拟世界的潜力。此外，此次Sora模型发布时间早于我们预期（此前预期GPT-5将在今年4-5月发布并展现文生3D与视频相关能力）。事件②：据2月8日《华尔街日报》援引知情人士透露，OpenAI首席执行官Sam Altman正在与包括阿联酋政府在内的潜在投资者进行谈判，试图推动一个旨在提高全球芯片制造能力的项目，重塑全球半导体行业。该计划准备筹集高达5万亿至7万亿美元。事件③：谷歌在Gemini Ultra上线的一周后再度发布升级版Gemini 1.5 Pro。谷歌表示，相较于 Gemini 1.0 Pro和1.0 Ultra，Gemini 1.5 Pro的在文本、视觉与音频等模态的核心能力胜率分别达87.1%和54.8%，但所需算力有所降低。同时，Gemini 1.5 Pro所支持的内容长度远超市面上其它模型，少数开发人员和企业客户已可尝试100万token的上下文窗口。策略建议：本次Sora惊艳亮相表明AI浪潮并未结束而是在持续进化，AI仍是24年最值得重视的产业趋势。目前产业最核心的驱动力仍在于基础模型能力的迭代，基础模型能力的上限决定了应用的下限和算力基础设施的上限。受益方向：1）视频创意领域：包括短视频、广告营销、游戏、IP转化、虚拟人等，创作效率提升和创作门槛降低带来的创造力释放有望孕育出下一个AI-native平台级应用。2）人形机器人与自动驾驶：此次模型展现出对于物理世界的理解能力，以此为基础训练与现实世界的交互能力，我们认为也有望加速人形机器人与自动驾驶领域的模型训练与应用进程。3）基础设施：国内模型能力与海外仍有较大差距，算力仍是主要肘制因素，基础设施建设刻不容缓。建议关注国产算力链与参与全球产业链分工的光模块等。

作者利益披露：转载，不作为证券推荐或投资建议，旨在提供更多信息，作者不保证其内容准确性。

声明：文章观点来自网友，仅为作者个人研究意见，不代表韭研公社观点及立场，站内所有文章均不构成投资建议，请投资者注意风险，独立审慎决策。

新易盛

工分