以 Midjourney、Stable Diffusion 为代表的图像创作以 Runway、Sora 为代表的视频创作的发展速度无疑是极为惊人的。我们认为,从文字到图像到视频,AI 内容创作的信息升维越来越考验模型的创作效率与生成结果的稳定性(早期版本的 Midjourney 存在生成时间长、生成结果违背物理常识或者“AI 感”明显的问题;Runway Gen-1/2 也存在生成视频时长较短且生成视频逻辑连贯性较弱等缺陷), 但正如 Midjourney V5/6 已逐步广泛实现多行业的商业化落地,我们认为 Sora 的问世有望推动着视频创作领域 的“iPhone 时刻”到来。
Sora 取法 Tokens 文本特征标记,是基于 Patches 视觉特征标记的 Diffusion Transformer 模型。OpenAI 研究团队从 LLM 中汲取灵感,认为 LLM 范式的成功在一定程度上得益于 Tokens 的使用,故而通过将视频信息分解为带有时空特征的 Patches 训练了 Diffusion Transformer 模型。从训练角度而言,基于 Patches 视觉特征标 记对原生视频进行采样扩大了可用样本的规模且省去了标准化样本的步骤。从推理角度而言,基于原生视频训练 的模型在生成新视频方面改善了构图和取景。OpenAI 目前发布的 Sora 视频大模型主要具备文生视频、视频编 辑、文生图三类功能,在文生视频过程中,用户通过输入 Prompt 提示词
DALL·E 生成图像Sora 生成视频。
文生图和文生视频是当下 AI 应用端落地焦点,海外相关技术产品迭代迅速。据 Discord,按邀请页面流量排序 的十大 AI 应用程序中,有 5 个是图片生成应用程序,2 个是音频生成应用程序,2 个是视频生成应用程序,其中, Midjourney 位列第一,Pika 位列第二,图片约占前 10 名流量的 74%,视频约占前 10 名流量的 8%。文生图领 域,海外有 Adobe(老牌创意软件巨头,现已发布下一代 Firefly 支持多种文生图功能)、Midjourney(文生图模 型新锐,现已广泛实现商业化落地)。文生视频领域,海外有 Pika(AI 初创公司,支持一键生成 3 秒共计 72 帧 视频)、Runway(拥有最早商业化的 T2V 模型 Runway Gen-2)。
国内推荐关注万兴科技和美图公司等创意软件龙头投资机会。万兴于 2023 年 9 月宣布即将发布国内首个专注于 以视频创意应用为核心的百亿级参数多媒体大模型“天幕”,具备一键成片、AI 美术设计、文生音乐、音频增强、 音效分析、多语言对话等核心能力。2022 年底至 2023 全年万兴对旗下 T2V/I 多款拳头产品进行 AI 功能更新, AI 赋能之下订阅收入占比及订阅续约率取得双增。美图公司于 2023 年 12 更新视觉大模型 MiracleVision 4.0, 具备文生视频、图生视频、视频生视频等多模态能力,AI 赋能之下订阅业务收入占比逐年增长。
Sora 开启创意领域新纪元,国内推荐关注万兴科技、美图公司、虹软科技、科大讯飞;海外推荐关注 Adobe。
海外基础软硬件使用受限的风险;AI 应用落地不及预期的风险;行业竞争加剧风险。