登录注册
【国金行业联合会议】OpenAI与Google正式拉开AGI攻势
戈壁淘金
只买龙头的老司机
2024-02-17 08:08:58

事件:北京时间2月16日凌晨,OpenAI发布Sora文生视频大模型,Sora可以生成长达一分钟的视频,同时保持视觉质量和遵循用户的提示。Sora能够生成包含多个字符、特定类型运动以及准确的主体和背景细节的复杂场景。

【Transformer Diffusion技术】技术路径是基于Transformer架构的Diffusion模型。即大方向依然是基于Diffusion扩散模型思路,加噪声后去噪声来生成图片。同时借鉴了LLM的scaling经验,将图片变成一块块的patch(2020年vision Transformer首次引入),类似LLM的token,用Transformer架构处理。

【长】生成的视频可长达1分钟,支持一次生成整个视频或扩展生成的视频。

【对比】1)Runway:默认4s,可以4s为单位向上叠加,最大叠加3次。支持图生视频。Prompt仅支持320words,无法装下Sora的示例长提示词。订阅价格$12/月起。2)Pika:默认3s,可以4s为单位向上叠加。支持图/视频生视频。无法装下Sora的示例长提示词。订阅价格$10/月起。

【开发者】被Altman点名的有三位:Tim、Bill和Aditya,位列作者一、二和最后(大老板一般挂最后)。技术报告共有作者13位,从名字上看包括4位华人,Yufei Guo、Li Jing、Clarence Wing Yin Ng、Ricky Wang。

【一致性】从Sora的示例视频看,视频一致性和连贯性较好,未出现明显的动作跳跃等不一致。

【指令跟随】遵循用户prompt,能理解生成物体在物理世界中的存在方式,生成复杂场景。还可以在单个生成的视频中创建多个镜头,准确地保留角色和视觉风格。

【图生视频】Sora同样支持从静态图片/视频生成/扩展/填充视频,以及视频编辑。

【安全】红队测试、AI生成检测器,以及文本和图像分类器,避免不良提示词。

【弱点】OpenAI也指出,Sora模型仍存在弱点,如混淆事物因果、空间细节、物理特性等。

【闭源】技术报告不包含模型和实施细节。

【暂时用不到】目前,红队成员可以使用 Sora 来评估,OpenAI还向一些视觉艺术家、设计师和电影制作人提供访问权限,以获取专业的反馈。

1)效果:远超所有此前文生视频方案,几乎实现了两个代际的提升,接近消费者/工业生产需要。60S的内容长度远超此前文生视频的10S长度,达到了短视频的爆款长度;极度稳定的镜头;模型不仅理解用户在提示中要求的内容,还理解这些东西在物理世界中的存在方式,实现不少物理交互(不仅可以生成完整流畅的走路和划船,甚至可以生成非常真实的猫踩睡觉的人,船在波涛里旋转的接近物理世界镜头),其它握手拥抱这些还不太行。

2)能力提升根源:OpenAI认为Sora作为Diffusion模型能力提升的很大来自于,更多的视频(甚至可能有3D)作为训练集、准确深入的语言理解能力、世界构造能力。从研究人员来看,真正研发Sora的人员仅有三人,其它均为支持性工作,我觉得大幅提升可能主要来自于三方面:Diffusion-Transformer架构;可能通过UE5、Unity、Nerf等大量生成了合成数据作为训练集;大语言模型的能力提升(OpenAI说了正在教AI理解和模拟运动中的物理世界,目标是训练能帮助人们解决需要真实世界交互的问题的模型)。

3)目前商业化进度:OpenAI尚未公开开放Sora权限,表示Sora目前仅为研究项目的开始,CEO Altman在Twitter邀请留言生成视频展示能力,并表示OpenAI已经在和安全测试机构、电影和视频创作者合作,以改进产品。我觉得6个月内就会商业化和GA。

4)未来市场展望:2千亿美金的短视频市场、3D、游戏、商业拍摄、特效、IP转化等内容创作工作流,都有望被颠覆,可以增强用户体验、极大降低用户使用壁垒、极大降低创作成本、并极大拓展创作者能力边界。看到了下一个亿级用户超级应用的雏形。

周鸿祎:Sora意味着AGI实现将从10年缩短到1年

【OpenAI与Google正式拉开AGI攻势】联合电话会纪要

一、数字未来实验室负责人:春节期间海外AI大事件解读

一、Google发布Gemini1.5,OpenAI发布视频模型Sora,AGI是否真的来了

北京时间2月15日晚间到2月16日凌晨,Google与OpenAI连续发出了大招,其中Google发布了Gemini 1.5模型供开发者测试,OpenAI发布了视频生成模型Sora。

主要亮点如下:

1、Google方面:Gemini1.5模型最大支持一百万上下文,1.5的Pro模型达到1.0的Ultra模型的能力,更强的推理能力,更强的多模态理解能力和编程能力。这其中最重要的亮点是百万级别的上下文长度,这意味着Gemini1.5模型已经具备了写出高质量深度研究报告或者论文的潜力。

2、OpenAI方面:虽然新发布的文生视频模型Sora还处于内部测试阶段,但是最大的模型已经能够生成最长1分钟的视频,最高清晰度是1080p,也就是短边长1080像素。从发布的视频素材看,模型具备极强的对象一致性,三维世界一致性,以及初步的对物理世界的理解能力。

这两个模型迅速刷屏,尤其是OpenAI的Sora模型因为生成视频的效果更直观,所以引起了更多关注。我们对此简单点评如下:1.这两个模型的发布,意味着过去一年AI发展的加速度从未下降,反而是上升的;2.当前模型研发的主要方向就是AGI,生成式AI是为训练AGI服务的,但是这两个模型的发布不意味着AGI很快就会出现,我们维持乐观预期下至少需要五年时间的判断;3.以大语言模型为基础的多模态能力打开了通向AGI的可能性,目前比较公认的方向就是需要更大规模的模型和更多的数据,对大算力集群和数据的需求还看不到天花板。

二、ARM股价一周内翻倍,再次强调AI时代,ARM架构对X86的取代趋势

ARM在发布财报后的一周内,股价翻倍。最超预期的地方在于:AI对于ARM架构的需求拉动。无论是预训练还是推理,ARM指令集数量虽然相比X86仍有差距,但是基本已经能够满足AI的需求,而ARM架构带来的芯片设计、功耗、CPU与GPU数据传输效率、模型端到端部署的便捷性等方面的提升则是巨大的。苹果、英伟达、高通甚至AMD等公司的不断努力,不断推进ARM对X86的取代进程。

三、奥特曼(OpenAI CEO)融资7万亿美金,AI算力需求难言顶

OpenAI的CEO奥特曼最近正在融资7万亿美金用于AI芯片研发和生产,引发了市场关于算力需求的热议。市场也有了不少测算,如果按照3万美金一片计算,7万亿美金可以购买大约2.3亿片英伟达的H100,数十倍于英伟达一年的产能。我们认为:1. 7万亿美金的数字虽然比较夸张,但是如果考虑未来五年或者AGI的算力需求的话,相对还是合理的。综合目前各方面情况看,AGI研发,对模型规模和数据需求巨大,单集群至少需要一百倍以上的算力提升,两三年的周期内,算力需求可能看不到天花板;2. 2023年的百模大战军备竞赛,在某种程度上给OpenAI、Google、Meta这些巨头带来了极大的危机感,此轮军备竞赛由巨头发起,技术层面的原因是AGI研发的真实需求,商业层面原因是大幅提高竞争门槛,将未来的潜在竞争对手挡在门外;3. 英伟达非常配合,新的路线图从两年的产品周期缩短为一年,进一步拉动算力需求。

四、数据将是模型进一步发展的重中之重

除了算力之外,下一步模型研发对于数据的需求也是至少几个数量级的提升:一方面,模型进入到多模态时代后,训练用的图像、视频等数据量远大于语言文字,另一方面,无论是图像视频生成还是理解,高清晰度意味着要求更高的图像细节,视频帧率等,这些都带来几倍甚至数十倍的数据量需求。之前有两种较为流行的观点,一是大模型已经把数据训练完了,另一个是生成的数据不可以作为训练用。在只考虑语言文字数据的前提下,这两种观点都有一定道理,但是多模态之后,这两个观点都被打破了,一是互联网上图像视频的数据量远远多于文字,二是多模态之后,很多研究表明用算法生成的图像视频数据是可以用来训练的。目前训练中数据的最大瓶颈是高质量的图像视频数据,例如2K以上分辨率的图像和视频,逻辑性更强更接近人类物理世界表达的视频数据,以及三维空间数据等。结论是:如果算力门槛的几十亿甚至上百亿美金是有形的,那么巨头手中握有的海量高质量数据则是无形的,更将成为决定以后模型竞争成败的关键。

五、总体结论:

1、利好算力板块。

2、利好手握数据资源的平台公司。

3、模型能力增强后,相关行业落地速度大幅加快。

风险提示:

1、AGI研发过程遇到难以跨越的瓶颈,导致AI进步速度大幅低于预期;

2、发现新算法,导致技术路线产生巨大变化。

二、电子首席分析师:AI大模型持续升级,继续看好AI受益产业链

OpenAI推出了创新视频生成模型Sora,能够将简短的文本描述转化为最长达一分钟的精细、高清视频片段。Sora这一技术突破,不是用在静态图片上,而是应用于视频。OpenAI引入了DALL-E3“扩散模型”的技术,与Transformer的神经网络相结合,能够将一堆随机分布的像素点转化为清晰的图片。

谷歌宣布推出全新的 Gemini 1.5 AI 模型,可以一次性处理大量信息,包括 1 小时的视频、11 小时的音频、超过 3 万行代码的代码库或超过 70 万字的文字。

预测OpenAI视频生成模型Sora及Gemini 1.5 AI 模型对AI芯片的需求大幅提升,OPEN AI CEO Sam Altman计划募集七万亿美元资金,计划颠覆AI芯片和芯片制造。英伟达黄仁勋近期访台与魏哲家会面,盼解决AI芯片供应紧张问题,,此外AMD MI300X芯片在近日正式交货,客户已收到多台内置8个MI300X芯片的运算设备,微软和Meta已采购大量的MI300系列,台积电COWOS需求持续旺盛,台积电设定了提高先进封装能力的目标,预测到2024年底,台积电CoWoS封装的产能将达到每月3.2万片,到2025年底将增加到4.4万片。英伟达、AMD等客户越来越多地要求超级急件。

AI大模型不断升级,AI芯片、HBM芯片、Ai服务器、光模块/光芯片及交换机等相关产业链持续受益,看好重点受益产业链:沪电股份、中际旭创、新易盛、天孚通信、通富微电、生益科技、兴森科技、胜宏科技。

风险提示:AI云端需求不达预期、AI落地应用低于预期。

三、传媒互联网首席分析师:AI工具化进步迅速,看好AI应用板块

1、Sora视频生成模型无论在时长、视频品质、分镜合理程度等方面,都远超过去的视频生成模型。随着视频生成AI算法工具化的进步,AI视频生成有望实现商业化。推荐关注KOL短视频生成相关的【天下秀】、有望实现电视剧降本增效的【华策影视】等。

2、Gemini 1.5模型支持百万级上下文长度,解决了过去在文字生成领域,因为上下文限制,而造成的不能生成长篇文字的困扰。推荐关注小说生成相关标【中文在线】、【掌阅科技】等。

风险提示:

1、AI发展不及预期

2、AI领域监管尚不清晰

3、AI应用竞争格局恶化

四、计算机首席分析师:AI产业新变化在计算机板块的机会映射

1、多模态大模型的发展,有利于AI落地应用普及速度提升。利好办公软件(如金山办公、万兴科技、福昕软件、汉仪股份、美图等),企业服务软件(如致远互联、泛微网络、赛意信息、汉得信息等),安防/数字化转型/智能硬件(海康威视、大华股份、萤石网络、千方科技、熵基科技、虹软科技、中科创达等)。

2、AI算力需求高增,ARM架构迎来良好机遇。在国产替代背景下,利好国产AI芯片供应商(如鲲鹏/昇腾、寒武纪、海光信息、龙芯中科、中国长城等),ARM架构占优,尤其利好采用ARM架构的飞腾(中国长城)、华为鲲鹏产业链(如拓维信息、广电运通、常山北明、高新发展等)。

3、高质量数据的重要性进一步提升,数据要素价值逐步走向市场化。利好具备多维感知能力的上游龙头(海康威视、大华股份等)、金融/医疗/交通等垂直领域高价值数据拥有者/服务商(久远银海、通行宝、零点有数等)、向量数据库提供商(星环科技等)。

风险提示:大国间科技竞争制约增加、技术落地应用不及预期、竞争加剧、商业模式不清晰等。

五、基础化工首席分析师:AI行业重大边际变化,看好能业绩兑现的AI材料标的

在今年宏观背景下,我们认为产业趋势是今年最重要的投资主线,没有之一,具体来说,主要两个方向,一是制造业出海,化工这边最为典型的是轮胎出海,也是业绩最先兑现的在行业之一,中国轮胎企业凭借自身的制造优势,不断地攻城略地,叠加中国轮胎企业产品力、渠道力的不断提升,该趋势有加速之势;另外一个方向是AI材料,这是我们持续重点跟踪的方向,基于先前2006-2022年A股、大化工及研究框架体系的迭代,跟踪这个产业需重点关注龙头的进展,因为龙头引领产业趋势,春节期间龙头事件多多,包括OpenAI以及Gemini,这些事件可能会进一步催化AI板块行情,映射到化工,最为确定是AI材料,也就是常说的买铲环节,这个环节主要有两类化工新材料,一类是高频高速树脂,受益于AI服务器的放量,该材料有望持续放量,相对应的标的是东材科技、圣泉集团,另外一类是芯片材料,尤其是HBM材料,相对应的标的是雅克科技。

风险提示:

1、AI生态闭环不及预期

2、原材料价格大幅波动

3、高频高速树脂及HBM材料竞争格局恶化

4、技术迭代带来的材料变化风险

六、医药首席分析师:AI技术进步带来医疗设备、药物发现和疾病诊治领域创新机会

生成式AI技术迅速发展,带来医疗设备、药物发现和疾病诊治领域新变革机会。世卫组织认为,大型多模式模型(LMM)未来有望广泛应用于医疗、科研和用药方面,AI医疗影像、AI辅诊等逐步落地,有望更进一步提升医疗质量与效率。当前我国医疗资源特别是医生资源仍然相对紧张,从医学科研、药物研发、医疗设备运维、医院管理,再到智慧诊疗等各阶段,均有大模型产品涌现,多家企业等围绕医疗各个环节展开医疗大模型的布局,AI医疗成为各大玩家重点加码的赛道。同时,多家医疗器械设备上市企业积极推动人工智能与医疗设备器械融合,AI+医疗设备已逐渐成为了未来医疗器械行业发展热点赛道之一。

风险提示:医疗事故风险;审批门槛超预期风险;技术突破超出预期风险;知识产权纠纷风险。

作者利益披露:转载,不作为证券推荐或投资建议,旨在提供更多信息,作者不保证其内容准确性。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
万兴科技
S
虹软科技
S
海光信息
S
中国科传
工分
47.78
转发
收藏
投诉
复制链接
分享到微信
有用 53
打赏作者
无用
真知无价,用钱说话
1个人打赏
同时转发
评论(20)
只看楼主
热度排序
最新发布
最新互动
  • 谢谢你
    只买龙头
    只看TA
    02-17 13:31
    去年的东西再炒一遍吗
    2
    0
    打赏
    回复
    投诉
  • 只看TA
    02-19 09:05
    分享发财
    1
    0
    打赏
    回复
    投诉
  • 韭久为功
    蜜汁自信的老韭菜
    只看TA
    02-17 09:38
    谢谢分享!
    1
    0
    打赏
    回复
    投诉
  • 只看TA
    02-19 10:21
    0
    0
    打赏
    回复
    投诉
  • 只看TA
    02-19 08:55
    感谢分享
    0
    0
    打赏
    回复
    投诉
  • 回国来炒股
    自学成才的散户
    只看TA
    02-19 08:11
    感谢分享
    0
    0
    打赏
    回复
    投诉
  • 只看TA
    02-18 21:34
    谢谢
    0
    0
    打赏
    回复
    投诉
  • 离离原上草
    不要怂的老韭菜
    只看TA
    02-18 20:16
    感谢
    0
    0
    打赏
    回复
    投诉
  • 只看TA
    02-18 20:15
    谢谢分享
    0
    0
    打赏
    回复
    投诉
  • 只看TA
    02-18 09:34
    感谢老师分享 创维数字 苹果头显平替竟品 MR真龙!
    0
    0
    打赏
    回复
    投诉
  • 1
  • 2
前往