【国金行业联合会议】OpenAI与Google正式拉开AGI攻势-韭研公社

登录注册

【国金行业联合会议】OpenAI与Google正式拉开AGI攻势

戈壁淘金

只买龙头的老司机

2024-02-17 08:08:58

事件：北京时间2月16日凌晨，OpenAI发布Sora文生视频大模型，Sora可以生成长达一分钟的视频,同时保持视觉质量和遵循用户的提示。Sora能够生成包含多个字符、特定类型运动以及准确的主体和背景细节的复杂场景。

【Transformer Diffusion技术】技术路径是基于Transformer架构的Diffusion模型。即大方向依然是基于Diffusion扩散模型思路，加噪声后去噪声来生成图片。同时借鉴了LLM的scaling经验，将图片变成一块块的patch（2020年vision Transformer首次引入），类似LLM的token，用Transformer架构处理。

【长】生成的视频可长达1分钟，支持一次生成整个视频或扩展生成的视频。

【对比】1）Runway：默认4s，可以4s为单位向上叠加，最大叠加3次。支持图生视频。Prompt仅支持320words，无法装下Sora的示例长提示词。订阅价格$12/月起。2）Pika：默认3s，可以4s为单位向上叠加。支持图/视频生视频。无法装下Sora的示例长提示词。订阅价格$10/月起。

【开发者】被Altman点名的有三位：Tim、Bill和Aditya，位列作者一、二和最后（大老板一般挂最后）。技术报告共有作者13位，从名字上看包括4位华人，Yufei Guo、Li Jing、Clarence Wing Yin Ng、Ricky Wang。

【一致性】从Sora的示例视频看，视频一致性和连贯性较好，未出现明显的动作跳跃等不一致。

【指令跟随】遵循用户prompt，能理解生成物体在物理世界中的存在方式，生成复杂场景。还可以在单个生成的视频中创建多个镜头，准确地保留角色和视觉风格。

【图生视频】Sora同样支持从静态图片/视频生成/扩展/填充视频，以及视频编辑。

【安全】红队测试、AI生成检测器，以及文本和图像分类器，避免不良提示词。

【弱点】OpenAI也指出，Sora模型仍存在弱点，如混淆事物因果、空间细节、物理特性等。

【闭源】技术报告不包含模型和实施细节。

【暂时用不到】目前，红队成员可以使用 Sora 来评估，OpenAI还向一些视觉艺术家、设计师和电影制作人提供访问权限，以获取专业的反馈。

1）效果：远超所有此前文生视频方案，几乎实现了两个代际的提升，接近消费者/工业生产需要。60S的内容长度远超此前文生视频的10S长度，达到了短视频的爆款长度；极度稳定的镜头；模型不仅理解用户在提示中要求的内容，还理解这些东西在物理世界中的存在方式，实现不少物理交互（不仅可以生成完整流畅的走路和划船，甚至可以生成非常真实的猫踩睡觉的人，船在波涛里旋转的接近物理世界镜头），其它握手拥抱这些还不太行。

2）能力提升根源：OpenAI认为Sora作为Diffusion模型能力提升的很大来自于，更多的视频（甚至可能有3D）作为训练集、准确深入的语言理解能力、世界构造能力。从研究人员来看，真正研发Sora的人员仅有三人，其它均为支持性工作，我觉得大幅提升可能主要来自于三方面：Diffusion-Transformer架构；可能通过UE5、Unity、Nerf等大量生成了合成数据作为训练集；大语言模型的能力提升（OpenAI说了正在教AI理解和模拟运动中的物理世界，目标是训练能帮助人们解决需要真实世界交互的问题的模型）。

3）目前商业化进度：OpenAI尚未公开开放Sora权限，表示Sora目前仅为研究项目的开始，CEO Altman在Twitter邀请留言生成视频展示能力，并表示OpenAI已经在和安全测试机构、电影和视频创作者合作，以改进产品。我觉得6个月内就会商业化和GA。

4）未来市场展望：2千亿美金的短视频市场、3D、游戏、商业拍摄、特效、IP转化等内容创作工作流，都有望被颠覆，可以增强用户体验、极大降低用户使用壁垒、极大降低创作成本、并极大拓展创作者能力边界。看到了下一个亿级用户超级应用的雏形。

周鸿祎：Sora意味着AGI实现将从10年缩短到1年

【OpenAI与Google正式拉开AGI攻势】联合电话会纪要

一、数字未来实验室负责人：春节期间海外AI大事件解读

一、Google发布Gemini1.5，OpenAI发布视频模型Sora，AGI是否真的来了

北京时间2月15日晚间到2月16日凌晨，Google与OpenAI连续发出了大招，其中Google发布了Gemini 1.5模型供开发者测试，OpenAI发布了视频生成模型Sora。

主要亮点如下：

1、Google方面：Gemini1.5模型最大支持一百万上下文，1.5的Pro模型达到1.0的Ultra模型的能力，更强的推理能力，更强的多模态理解能力和编程能力。这其中最重要的亮点是百万级别的上下文长度，这意味着Gemini1.5模型已经具备了写出高质量深度研究报告或者论文的潜力。

2、OpenAI方面：虽然新发布的文生视频模型Sora还处于内部测试阶段，但是最大的模型已经能够生成最长1分钟的视频，最高清晰度是1080p，也就是短边长1080像素。从发布的视频素材看，模型具备极强的对象一致性，三维世界一致性，以及初步的对物理世界的理解能力。

这两个模型迅速刷屏，尤其是OpenAI的Sora模型因为生成视频的效果更直观，所以引起了更多关注。我们对此简单点评如下：1.这两个模型的发布，意味着过去一年AI发展的加速度从未下降，反而是上升的；2.当前模型研发的主要方向就是AGI，生成式AI是为训练AGI服务的，但是这两个模型的发布不意味着AGI很快就会出现，我们维持乐观预期下至少需要五年时间的判断；3.以大语言模型为基础的多模态能力打开了通向AGI的可能性，目前比较公认的方向就是需要更大规模的模型和更多的数据，对大算力集群和数据的需求还看不到天花板。

二、ARM股价一周内翻倍，再次强调AI时代，ARM架构对X86的取代趋势

ARM在发布财报后的一周内，股价翻倍。最超预期的地方在于：AI对于ARM架构的需求拉动。无论是预训练还是推理，ARM指令集数量虽然相比X86仍有差距，但是基本已经能够满足AI的需求，而ARM架构带来的芯片设计、功耗、CPU与GPU数据传输效率、模型端到端部署的便捷性等方面的提升则是巨大的。苹果、英伟达、高通甚至AMD等公司的不断努力，不断推进ARM对X86的取代进程。

三、奥特曼（OpenAI CEO）融资7万亿美金，AI算力需求难言顶

OpenAI的CEO奥特曼最近正在融资7万亿美金用于AI芯片研发和生产，引发了市场关于算力需求的热议。市场也有了不少测算，如果按照3万美金一片计算，7万亿美金可以购买大约2.3亿片英伟达的H100，数十倍于英伟达一年的产能。我们认为：1. 7万亿美金的数字虽然比较夸张，但是如果考虑未来五年或者AGI的算力需求的话，相对还是合理的。综合目前各方面情况看，AGI研发，对模型规模和数据需求巨大，单集群至少需要一百倍以上的算力提升，两三年的周期内，算力需求可能看不到天花板；2. 2023年的百模大战军备竞赛，在某种程度上给OpenAI、Google、Meta这些巨头带来了极大的危机感，此轮军备竞赛由巨头发起，技术层面的原因是AGI研发的真实需求，商业层面原因是大幅提高竞争门槛，将未来的潜在竞争对手挡在门外；3. 英伟达非常配合，新的路线图从两年的产品周期缩短为一年，进一步拉动算力需求。

四、数据将是模型进一步发展的重中之重

除了算力之外，下一步模型研发对于数据的需求也是至少几个数量级的提升：一方面，模型进入到多模态时代后，训练用的图像、视频等数据量远大于语言文字，另一方面，无论是图像视频生成还是理解，高清晰度意味着要求更高的图像细节，视频帧率等，这些都带来几倍甚至数十倍的数据量需求。之前有两种较为流行的观点，一是大模型已经把数据训练完了，另一个是生成的数据不可以作为训练用。在只考虑语言文字数据的前提下，这两种观点都有一定道理，但是多模态之后，这两个观点都被打破了，一是互联网上图像视频的数据量远远多于文字，二是多模态之后，很多研究表明用算法生成的图像视频数据是可以用来训练的。目前训练中数据的最大瓶颈是高质量的图像视频数据，例如2K以上分辨率的图像和视频，逻辑性更强更接近人类物理世界表达的视频数据，以及三维空间数据等。结论是：如果算力门槛的几十亿甚至上百亿美金是有形的，那么巨头手中握有的海量高质量数据则是无形的，更将成为决定以后模型竞争成败的关键。

五、总体结论：

1、利好算力板块。

2、利好手握数据资源的平台公司。

3、模型能力增强后，相关行业落地速度大幅加快。

风险提示：

1、AGI研发过程遇到难以跨越的瓶颈，导致AI进步速度大幅低于预期；

2、发现新算法，导致技术路线产生巨大变化。

二、电子首席分析师：AI大模型持续升级，继续看好AI受益产业链

OpenAI推出了创新视频生成模型Sora，能够将简短的文本描述转化为最长达一分钟的精细、高清视频片段。Sora这一技术突破，不是用在静态图片上，而是应用于视频。OpenAI引入了DALL-E3“扩散模型”的技术，与Transformer的神经网络相结合，能够将一堆随机分布的像素点转化为清晰的图片。

谷歌宣布推出全新的 Gemini 1.5 AI 模型，可以一次性处理大量信息，包括 1 小时的视频、11 小时的音频、超过 3 万行代码的代码库或超过 70 万字的文字。

预测OpenAI视频生成模型Sora及Gemini 1.5 AI 模型对AI芯片的需求大幅提升，OPEN AI CEO Sam Altman计划募集七万亿美元资金，计划颠覆AI芯片和芯片制造。英伟达黄仁勋近期访台与魏哲家会面，盼解决AI芯片供应紧张问题，，此外AMD MI300X芯片在近日正式交货，客户已收到多台内置8个MI300X芯片的运算设备，微软和Meta已采购大量的MI300系列，台积电COWOS需求持续旺盛，台积电设定了提高先进封装能力的目标，预测到2024年底，台积电CoWoS封装的产能将达到每月3.2万片，到2025年底将增加到4.4万片。英伟达、AMD等客户越来越多地要求超级急件。

AI大模型不断升级，AI芯片、HBM芯片、Ai服务器、光模块/光芯片及交换机等相关产业链持续受益，看好重点受益产业链：沪电股份、中际旭创、新易盛、天孚通信、通富微电、生益科技、兴森科技、胜宏科技。

风险提示：AI云端需求不达预期、AI落地应用低于预期。

三、传媒互联网首席分析师：AI工具化进步迅速，看好AI应用板块

1、Sora视频生成模型无论在时长、视频品质、分镜合理程度等方面，都远超过去的视频生成模型。随着视频生成AI算法工具化的进步，AI视频生成有望实现商业化。推荐关注KOL短视频生成相关的【天下秀】、有望实现电视剧降本增效的【华策影视】等。

2、Gemini 1.5模型支持百万级上下文长度，解决了过去在文字生成领域，因为上下文限制，而造成的不能生成长篇文字的困扰。推荐关注小说生成相关标【中文在线】、【掌阅科技】等。

风险提示：

1、AI发展不及预期

2、AI领域监管尚不清晰

3、AI应用竞争格局恶化

四、计算机首席分析师：AI产业新变化在计算机板块的机会映射

1、多模态大模型的发展，有利于AI落地应用普及速度提升。利好办公软件（如金山办公、万兴科技、福昕软件、汉仪股份、美图等），企业服务软件（如致远互联、泛微网络、赛意信息、汉得信息等），安防/数字化转型/智能硬件（海康威视、大华股份、萤石网络、千方科技、熵基科技、虹软科技、中科创达等）。

2、AI算力需求高增，ARM架构迎来良好机遇。在国产替代背景下，利好国产AI芯片供应商（如鲲鹏/昇腾、寒武纪、海光信息、龙芯中科、中国长城等），ARM架构占优，尤其利好采用ARM架构的飞腾（中国长城）、华为鲲鹏产业链（如拓维信息、广电运通、常山北明、高新发展等）。

3、高质量数据的重要性进一步提升，数据要素价值逐步走向市场化。利好具备多维感知能力的上游龙头（海康威视、大华股份等）、金融/医疗/交通等垂直领域高价值数据拥有者/服务商（久远银海、通行宝、零点有数等）、向量数据库提供商（星环科技等）。

风险提示：大国间科技竞争制约增加、技术落地应用不及预期、竞争加剧、商业模式不清晰等。

五、基础化工首席分析师：AI行业重大边际变化，看好能业绩兑现的AI材料标的

在今年宏观背景下，我们认为产业趋势是今年最重要的投资主线，没有之一，具体来说，主要两个方向，一是制造业出海，化工这边最为典型的是轮胎出海，也是业绩最先兑现的在行业之一，中国轮胎企业凭借自身的制造优势，不断地攻城略地，叠加中国轮胎企业产品力、渠道力的不断提升，该趋势有加速之势；另外一个方向是AI材料，这是我们持续重点跟踪的方向，基于先前2006-2022年A股、大化工及研究框架体系的迭代，跟踪这个产业需重点关注龙头的进展，因为龙头引领产业趋势，春节期间龙头事件多多，包括OpenAI以及Gemini，这些事件可能会进一步催化AI板块行情，映射到化工，最为确定是AI材料，也就是常说的买铲环节，这个环节主要有两类化工新材料，一类是高频高速树脂，受益于AI服务器的放量，该材料有望持续放量，相对应的标的是东材科技、圣泉集团，另外一类是芯片材料，尤其是HBM材料，相对应的标的是雅克科技。

风险提示：

1、AI生态闭环不及预期

2、原材料价格大幅波动

3、高频高速树脂及HBM材料竞争格局恶化

4、技术迭代带来的材料变化风险

六、医药首席分析师：AI技术进步带来医疗设备、药物发现和疾病诊治领域创新机会

生成式AI技术迅速发展，带来医疗设备、药物发现和疾病诊治领域新变革机会。世卫组织认为，大型多模式模型（LMM）未来有望广泛应用于医疗、科研和用药方面，AI医疗影像、AI辅诊等逐步落地，有望更进一步提升医疗质量与效率。当前我国医疗资源特别是医生资源仍然相对紧张，从医学科研、药物研发、医疗设备运维、医院管理，再到智慧诊疗等各阶段，均有大模型产品涌现，多家企业等围绕医疗各个环节展开医疗大模型的布局，AI医疗成为各大玩家重点加码的赛道。同时，多家医疗器械设备上市企业积极推动人工智能与医疗设备器械融合，AI+医疗设备已逐渐成为了未来医疗器械行业发展热点赛道之一。

风险提示：医疗事故风险；审批门槛超预期风险；技术突破超出预期风险；知识产权纠纷风险。

作者利益披露：转载，不作为证券推荐或投资建议，旨在提供更多信息，作者不保证其内容准确性。

声明：文章观点来自网友，仅为作者个人研究意见，不代表韭研公社观点及立场，站内所有文章均不构成投资建议，请投资者注意风险，独立审慎决策。

万兴科技

虹软科技

海光信息

中国科传

工分