登录注册
Sora开启创意领域iPhone时刻,关注全球文生图、视频投资机会
八极游
不要怂的小韭菜
2024-02-19 16:52:39
Sora 问世,视频创作领域迎来“iPhone 时刻”。2023 年 2 月 15 日,OpenAI 发布视频生成大模型 Sora,通过文本指令,Sora 可以直接输出长达 60 秒的高清视频,包含高度写实的背景、复杂的多角度镜头以及富有情感的多角色叙事,更为可贵的是,Sora 生成的视频表现出对于真实世界物理常识的深刻理解。部分媒体报道惊叹— —“Sora 之后,现实将不再存在”。从本轮 AI 应用端发展实践来看,以文本创作(小说、剧本)、图像创作(绘画、平面设计、摄影)、视频创意(广告、短视频、传统影视、游戏)为代表的创意创作领域因其高容错率、高投入度,在 AI 浪潮之初就被市场广泛认为将会成为最先被 AI 深刻赋能的产业之一;从本轮 AI 模型发展演绎来 看,以 ChatGPT 为代表的文本创作

以 Midjourney、Stable Diffusion 为代表的图像创作以 Runway、Sora 为代表的视频创作的发展速度无疑是极为惊人的。我们认为,从文字到图像到视频,AI 内容创作的信息升维越来越考验模型的创作效率与生成结果的稳定性(早期版本的 Midjourney 存在生成时间长、生成结果违背物理常识或者“AI 感”明显的问题;Runway Gen-1/2 也存在生成视频时长较短且生成视频逻辑连贯性较弱等缺陷), 但正如 Midjourney V5/6 已逐步广泛实现多行业的商业化落地,我们认为 Sora 的问世有望推动着视频创作领域 的“iPhone 时刻”到来。

Sora 取法 Tokens 文本特征标记,是基于 Patches 视觉特征标记的 Diffusion Transformer 模型。OpenAI 研究团队从 LLM 中汲取灵感,认为 LLM 范式的成功在一定程度上得益于 Tokens 的使用,故而通过将视频信息分解为带有时空特征的 Patches 训练了 Diffusion Transformer 模型。从训练角度而言,基于 Patches 视觉特征标 记对原生视频进行采样扩大了可用样本的规模且省去了标准化样本的步骤。从推理角度而言,基于原生视频训练 的模型在生成新视频方面改善了构图和取景。OpenAI 目前发布的 Sora 视频大模型主要具备文生视频、视频编 辑、文生图三类功能,在文生视频过程中,用户通过输入 Prompt 提示词

DALL·E 生成图像Sora 生成视频。 

文生图和文生视频是当下 AI 应用端落地焦点,海外相关技术产品迭代迅速。据 Discord,按邀请页面流量排序 的十大 AI 应用程序中,有 5 个是图片生成应用程序,2 个是音频生成应用程序,2 个是视频生成应用程序,其中, Midjourney 位列第一,Pika 位列第二,图片约占前 10 名流量的 74%,视频约占前 10 名流量的 8%。文生图领 域,海外有 Adobe(老牌创意软件巨头,现已发布下一代 Firefly 支持多种文生图功能)、Midjourney(文生图模 型新锐,现已广泛实现商业化落地)。文生视频领域,海外有 Pika(AI 初创公司,支持一键生成 3 秒共计 72 帧 视频)、Runway(拥有最早商业化的 T2V 模型 Runway Gen-2)。 

国内推荐关注万兴科技和美图公司等创意软件龙头投资机会。万兴于 2023 年 9 月宣布即将发布国内首个专注于 以视频创意应用为核心的百亿级参数多媒体大模型“天幕”,具备一键成片、AI 美术设计、文生音乐、音频增强、 音效分析、多语言对话等核心能力。2022 年底至 2023 全年万兴对旗下 T2V/I 多款拳头产品进行 AI 功能更新, AI 赋能之下订阅收入占比及订阅续约率取得双增。美图公司于 2023 年 12 更新视觉大模型 MiracleVision 4.0, 具备文生视频、图生视频、视频生视频等多模态能力,AI 赋能之下订阅业务收入占比逐年增长。 

Sora 开启创意领域新纪元,国内推荐关注万兴科技、美图公司、虹软科技、科大讯飞;海外推荐关注 Adobe。 

海外基础软硬件使用受限的风险;AI 应用落地不及预期的风险;行业竞争加剧风险。

作者利益披露:转载,不作为证券推荐或投资建议,旨在提供更多信息,作者不保证其内容准确性。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
万兴科技
S
虹软科技
S
科大讯飞
工分
1.50
转发
收藏
投诉
复制链接
分享到微信
有用 3
打赏作者
无用
真知无价,用钱说话
0个人打赏
同时转发
暂无数据