登录注册
AIGC专题报告-从文生图到文生视频 - 技术框架与商业化
金融民工1990
长线持有
2023-12-04 22:54:07

会议要点

1. 技术与未来

技术发展现状:海外领先平台如Runway持续迭代技术,提升AI视频生成质量。纹身图技术较成熟,文生视频技术尚处早期阶段,商用模型主要生成短视频。

技术难点与改进:GAN存在训练不稳定、样本重复问题;Transformer模型质量高但计算成本大;扩散模型成本可控但上采样速度慢。

数据与模型迭代:文生视频缺乏高质量数据集,且视频生成需平衡空间信息与时间信息,模型迭代方向集中在提高生成质量与连贯性。

2. AIGC技术演进与应用分析

AIGC技术应用:视频生成需呈现24帧连贯画面,对技术精准度和生成控制要求高,面临难度升级。

模型类型解析:GAN模型因参数量少而轻便,但稳定性和多样性不足;Transformer基于自回归的模型稳定性强,但训练成本高、效率低。

技术优化方向:扩散模型在纹身图/视频领域占主流,训练过程中通过添加噪声、反向降噪学习,但存在前向推理频繁和高算力需求问题。

3. 文生视频技术与商业化分析

技术路径及成本分析:当前主流AIGC视频生成技术主要基于扩散模型,与自回归和GAN模型相比,扩散模型在生成质量、速度与训练成本方面呈现中等水平,适合在图像领域的应用拓展至医学、天文等其他领域。

商业模式分析:商业模式主要基于GPU使用时间或生成次数收费,核心应用场景为工业设计、医学影像分析等,未来有望应用于传媒、动画游戏设计等领域。

成本与收益分析:以MR公司为例,大模型年成本75-80百万美金,图像成本约0.03~0.04美金,毛利率约30-40%,净利率可达20%。视频生成成本预计比图像高24倍以上,但纹身图训练成本相对较低具有可控性和较高的盈利潜力。

4. 解析AIGC技术及商业应用

AIGC技术迅猛发展:目前大模型的参数量在千亿至万亿级别,且与算力需求呈正相关,预示着对算力投资的潜在需求。

纹身图及视频算力需求大:文生图的大模型参数量较小,量级几十亿;文生视频模型参数量更大,达百亿级别且对显卡的需求更高。

应用市场竞争加剧:AI应用分为原生和现有应用增强两种,原生AI应用将在C端爆发,但门槛低可能导致竞争激烈;现有应用通过AI赋能可提升用户粘性与付费率。

5. AIGC赋能视频创作领域

AIGC技术应用潜力大:AIGC技术在文到图、图到视频、视频到视频等转换方面具有潜在应用,相关企业正在扩充团队并进行技术迭代。

特定公司业务发展迅速:Runway和Pika在AIGC领域表现突出,通过不断优化模型和产品,已经获得显著的用户访问量。

海外市场需求旺盛:海外企业如黑骏和外星播报平台通过创新的AIGC视频生成服务解决方案,针对电商和出海营销领域提供服务,显示出广阔的应用空间。

会议实录

1. 技术与未来

您之前可能已经了解到,AIGC领域的技术发展非常迅速,如同runway这样的海外视频生成平台,持续在升级他们的技术和产品,比如引进了称为“金兔”的新模型,显著提高了生成视频的质量。文生视频是一个未来的重点发展方向,它的应用前景非常广阔。我们会系统地介绍AI生成图像(AIGI)和AI生成视频(AIGV)。

 

首先,在AIGI方面,这是一个相对成熟的领域,目前主要的技术路径为三种:生成对抗网络(GAN)、扩散模型和自回归模型。行业内的明星模型,像阿米珍妮devotion,主要是基于扩散模型进行迭代的。而AIGV目前仍处于相对早期阶段,商业应用中常见的是生成2至4秒的短视频。其底层技术路径与AIGI相似,但在AIGI的基础上,模型和数据架构进行了特定的迭代。

 

从技术发展角度来看,最初的AIGV模型主要基于GAN和VMP的方法,适用于低分辨率和目标运动简单的场景。第二阶段引入了Transform架构,如结合VQ-VAE模型和时间敏感的Transformer模块。第三阶段的扩散模型,如divisionmodel,已成为AIGV的主流模型。目前流行的platform,如text-to-runway和威尔亚洲研究院的NovaXL,都是建立在扩散模型基础上的。

 

对于GAN模型,其主要问题是训练的不稳定性和样本多样性不足,未来的改进方向集中在模型结构和压缩上。Transformer模型虽然生成质量高,但计算成本大。而扩散模型面临的挑战是渲染速度较慢,但因其生成质量较为可控,成为了主流选择。

 

AIGI转向AIGV的演进中,有两类方法:一是生成静态关键帧,继而构建时间序列;二是直接端到端生成视频。其中第一类方法,像清华的video就是将每帧以token形式进行标记,再逐步形成关键帧和中间帧。而第二种端到端方法,如runway的模型,结合了结构与内容的表示,以及clip的模型,实现了同步生成视频的目标。

 

特别关键的是时间序列建模。GAN、Transformer和扩散模型在时间建模方面的能力不同。其中,GAN难以控制生成的连续性;Transformer虽然理解和控制能力强,但计算成本高;而扩散模型因牵涉到空间和时间一致性等多方面问题,需要结合算法逐步解决。

 

在数据方面,AIGI相对成熟,而AIGV还面临高质量训练数据不足的问题,如oneway的金兔内部数据集包含庞大图片和视频剪辑数据。模型方面,除了考虑空间信息外,还必须加入时间信息。同时,由于视频片段长度不一,固定帧数片段的做法可能会破坏文本与时间的对齐,影响训练效果。

 

总的来说,AI生成视频从算力到数据优化,都需要进行相对复杂的迭代和提升。我们期待模型通过结构改进、后处理强化等方式,持续在视频生成质量和连贯性方面取得进展。

 

2. AIGC技术演进与应用分析

我们可以观察到在形成一段连贯的视频时,对人眼来说,可能需要24帧每秒,相应地,在同一时间内,生成视频可能需要负荷24倍的计算量。特别需要指出,对于像纹身图这样的内容,掌握每一个细节(point)是极为关键的,因此,生成文生视频对技术的专业性要求更高,相应地,也会带来生成上的可控性挑战。

 

接下来简单概述三种不同的模型架构以及它们的训练和生成逻辑,我将以易于理解的方式进行讲解。首先,GAN(对抗生成网络)总体上是一个对抗模型,它主要通过生成器和鉴别器进行对抗训练。例如,我们提供输入给生成器和鉴别器,通过它们的相互竞争来判别所生成的内容是真实还是虚假。GAN模型结构相对简单,因此参数量较少,整体上比较轻量。但是,当应用于更复杂的数据集或进行复杂生成时,难度相对较高。包括它的稳定性和生成图片的多样性,均存在一定的问题。

 

我们进一步考察了一些常见的GAN模型示例。第一个例子是条件GAN,主要通过限制条件来控制生成的多样性。我们使用随机噪声向量和受控条件数据,将其输入到生成器中进行生成,并通过鉴别器进行鉴定,最终推算生成内容与原始内容的相似度概率。例如,如果要生成一张人脸,你可以根据年龄这个条件加上嘴巴张开的特征进行生成。

 

第二个例子是将文本转化为图片。首先,我们使用编码技术将文本(test)转换成向量,然后,通过大量图片和对应的正确或错误文本,加速整个训练过程,最终实现将文本转换成图片。

 

另外,关于高分辨率图像生成,整个训练过程中会先对高分辨率图片采样并损失部分信息,随后将这些采样的图片与原始图片进行比对。鉴别器会对中间所需生成的内容和实际缺失的内容进行鉴别,从而进行训练。通过这种方式,可以将一个高分辨率的图片还原成一个低分辨率图片,逐步生成更高质量的图片。

 

要指出的是,GAN曾是早期用于纹身图生成的主要模型,尽管门槛相对较低,但生成稳定性并不足够。因此,后续逐渐被基于Transformer自回归模型和扩散模型所替代。然而,在模型迭代过程中,有一部分生成依旧可能会采用GAN模式,将多种模型结合起来进行优化。

 

接着,我们看到自回归模型基于Transformer架构,这种模型具有较强的稳定性,且生成图片逻辑性较为合理。但是,其缺点是计算效率相对较低,生成速度慢,而且训练成本高。

 

我们也举例了一个自回归模型的训练逻辑案例,比如进行狗狗图片生成时,训练过程会对图片像素块进行拆解,提取特征编码。之后,将所有特征进行聚类,并在每个聚类中选取代表性词汇构建“cookbook”。虽然我们可以通过这些特征向量随机生成图片,但可能会产生一些不合理的现象,例如狗狗的眼睛和嘴巴位置不正确。为了解决这个问题,我们可以引入Transformer,通过合理文本生成相应的图片。并且,在Transformer前端预留空间进行文本拼接,就可以在不需要额外条件的情况下进行训练。

 

因此,可以看出Transformer架构在图像生成中可以保证整体图片的合理性和逻辑性。但是,在训练过程中,对资源和算力的消耗非常大,且训练速度较慢。

 

通过Transformer架构进行视频生成目前是一个重要的发展路径。典型的案例如诺瓦的前两代产品以及清华大学cosvideo项目,它们都基于Transformer模型,能够生成更连贯自然的视频。然而,与图像生成相同,训练成本依旧较高。为了降低成本,正在探索将视频作为图像的时间序列处理,以减少视频tokens数量。

 

第三种模型是扩散模型,目前在纹身图和文生视频领域相当主流。扩散模型通过一种马尔可夫链逻辑,简单来说,比起直接构建一栋楼,给定一栋楼并进行拆解训练能更好地帮助模型学习和重建。在训练过程中,我们不断地添加随机噪声,直至得到纯高斯噪声数据,然后通过逆扩散和反向降噪过程推断生成图像。不过,这个过程中存在许多待解决的问题,例如多次前向推理的需求以及对模型数量的依赖。

 

此外,扩散模型经常与CLIP模式结合使用。CLIP本质上是将文本与图像编码器组合,进行特征提取并映射到同一表示空间。通过对文本和图像对的相似度和差异度进行训练,并利用分类器通过给定文本生成描述合理的图像。所见,CLIP通常会与其他模型如扩散模型结合应用。

 

3. 文生视频技术与商业化分析

我们观察目前的扩散模型,已经被广泛应用于文生视频这一技术领域,成为了主流技术路径。众多技术巨头,如Google、Meta,以及在文生视频领域领先的Runway,和微软亚洲研究院开发的最新版本NoyAnhXL,均采用了基于扩散模型的方法。这是因为扩散模型能够在生产质量和成本之间取得合理的平衡。在比较了图像生成的质量、生成速度和训练成本之后,我们看到从质量角度来讲,扩散模型优于自回归模型,自回归模型又优于GAN模型。从参数量来看,自回归模型需要的参数量较高,一般是数十亿到百亿级别的规模,而扩散模型的参数量则位于中间,对应的图像生成模型约为十亿数量级,GAN模型的参数量要求则更低,大约在千万级别。

 

在生成速度方面,GAN的生成速度最快,其次是扩散模型,再次是自回归模型。从训练成本来看,自回归模型明显更高,而扩散模型居于中间,GAN模型的训练成本是最低的。综合考虑,扩散模型在生成质量、速度和训练成本上实现了一个较为合理的平衡。

 

接下来讨论文生图和视频的整体商业模式与成本构成。文生图的商业模式主要涉及算力成本、运维成本、人力成本以及销售费用等。它的商业化主要基于GPU使用时间或生成次数计费,另有个性化定价以及API调用方式。目前,核心应用场景主要是图像分割、工业设计辅助、医学影像分析等。而在图像生成和风格转换方面,则多用于艺术设计、产品设计和动画游戏设计。

 

我们还预见到,未来的视频生成技术如果大规模普及,并在长度上得到增强,将可能在动画、游戏设计和其他领域,例如图像修复和图像超分辨率获得更多应用。在这些领域,如医学和天文观测,将有着广泛的用途。

 

具体到MR的成本构成,主要分为数据成本、人力成本和算力成本。数据成本大约为1000万至2000万美金,通常为一次性购买并进行分期摊销。人力成本方面,在硅谷等一线城市的平均成本大概年薪为80至90万美金。以openAI为例,员工数量只有十几人,人力成本相对可控。芯片投入方面,算力成本占比相对较低,公司会采用英伟达的A100卡等进行推理和某部分的训练。

 

当我们考虑折旧、电力消耗等因素后,算下来的总成本约为7500万至8000万美金一年,单张图片成本约为0.03至0.04美金。对照目前年收入在1亿美金左右,图片收入约为0.05美金,整体毛利率可达30%至40%,净利率可维持在20%左右。

 

我们进一步比较不同成本场景下的情况。按照干模型的训练和推理过程,算力成本预计仅为扩散模型的1/3至1/4。而若采用自回归Transformer架构,整体成本则是扩散模型的1.5倍左右。关于文生视频的成本,可能是文生图成本的24倍以上,因为连续的视频需要每秒超过24帧的帧率。

 

文生视频单次消耗的算力至少是文生图的24倍,并且实际可能更高,因为这涉及复杂逻辑和多样性等因素。综上所述,我们认为,目前文生视频的成本远高于文生图,后者的成本相对可控。

 

最后,从对标LP的大模型角度来看,文生图的训练成本其实非常低,这主要是由于主流模型之间参数量的差异所致。

 

4. 解析AIGC技术及商业应用

针对AGI的大模型,典型的参数量基本都在千万级别,甚至现在有模型达到了千亿,万亿级别。如GPT-4,以及亚马逊未来计划推出的模型,都是万亿级别的参数量。尽管GPT-3采用了MV架构,在推理端它仍是一个拥有2000多亿参数的模型,总体维持在千亿数量级。AI生成图像(AIGC)的预训练模型,参数量最大可能也仅有几十亿,相较于AGI大模型而言,要小得多。接下来,我们来看AI生成图像及视频需要的算力情况。算力需求估算基于模型训练和推理算力的公式,这与模型参数量和数据操作量呈正相关。

 

我们模型的参数量大约在数十亿,针对10亿到50亿参数量的情况,我们假设了不同的场景,并用fp32较高精度进行字节换算。例如,10亿参数量的模型大约需要3.7GB显存,我们选取了具有40GB显存的A100GPU进行测算。由于单个A100可以拓展七个GPU,故单个A100足以满足一次单侧推理的需求。根据Google搜索引擎的数据,他们每10亿QPS可以处理10万次并发大模型推理。如按照这一比例,AI生成图应该能处理大约5000次,并发推理量。由于生成图处理时间较长,我们设定其并发推理设计为谷歌的10倍。这样,我们可以预计出最高并发推理容量,以及相应的显卡数量。

 

目前用户尚未大规模涌现,所需的显卡数量相对有限,例如对于“mejourney”的700万QPS,大约需要3000张显卡便足够。另外,AI生成视频对显卡需求更高,我们以典型的百亿参数量级AI生成视频模型为例,推理显卡数量的要求相对而言较高。如果AI生成视频规模化爆发,对算力需求将大幅增长。

 

AI生成图的典型应用有两种模式:原生AI应用和现有应用叠加AI功能。原生AI应用可能通过技术和数据成本优势,在消费端脱颖而出,尽管面临较高的竞争和门槛。另外,现有应用通过嵌入AI功能,虽有稳定用户基数,但长期来看其付费能力需要逐步提升。短期内,并非所有应用都能显著贡献收入。

 

目前海外AI生成图的典型应用,如DALL·E和“mejourney”领先。其他大厂如OpenAI发布的基于自回归模型的产品,及后续基于扩散模型的产品。Google推出了基于扩散和自回归模型的模型。MyHeritage发布的模型基于3亿文本token,性能表现出色。“Majernomyjourney”龙头地位明显,用户体量持续增长。开源模型stablediffusion同样值得关注。

 

视频生成领域,海外应用较多,整体趋势显示图片生成用户访问量在逐步下降,而视频生成方向的用户增长迅速。关注领域包括AI生成视频、视频编辑和虚拟数字生成。如“Blackstone”在数字角色生成方面位居全球首位,用户增长显著。Runway的模型基于扩散模型,输入视频后进行编码、时间序列建模,结合结构和内容表示,通过Clip模型将文本转化成图像嵌入,以生成最终效果。其第二代产品对生成效果有显著提升。

 

国内公司推出的AI生成图应用包括百度的“WenxinYiGe”,外星科技的产品,以及美图公司的相关功能。美图工作室的B端解决方案可自动生成商品和设计图。新国都的PC产品在海外也已上线,提供多样化的AI生成图效果。

 

5. AIGC赋能视频创作领域

我们观察到近期受欢迎的另一家公司是皮卡,皮卡尚未公布其技术细节,但从与Runway的产出比较来看,两者生成效果较为接近。据此,我们推测皮卡可能采用了类似的模型。皮卡的联合创始人为两位华人,目前团队规模为4人,预计明年将扩充至20人。公司主要专注于生成特定新风格的视频,并提供AI编辑服务,如文本转视频、图像转视频、视频转视频以及视频内容的扩展和改编。

 

对比Runway和皮卡,技术路径方面,皮卡的并不十分明晰,但预计与Runway类似。在用户规模方面,Runway的网页访问量在11月份大约为785万次,而皮卡为76万次。两者提供的产品功能相似,但皮卡提供了更多视频风格修改和渲染,以及对特定视频片段的编辑。皮卡目前的功能也十分主流。

 

在收费模式上,Runway主要面向C端用户,采用订阅付费制,月费从12美元至70多美元不等,依据用户获得的配额、编辑器数量和生成图像的清晰度有所区别。价格反映出视频生成成本相对较高。皮卡目前免费,注册后需要排队等待邀请。从生成效果来看,皮卡在细节上表现优异,对语义的理解也更为精准。总体来说,Runway和皮卡各有千秋,值得持续关注它们的底层模型和产品迭代。

 

海外市场上,另一家近期热门的视频生成平台是黑骏,其团队来自中国同济大学,并曾在大型科技公司担任职位。据统计,黑骏11月的网页访问量大约为600万次。黑骏整合了多个人工智能引擎,如GPT-4和11x,简化视频生成流程,支持全球多种语言和口音,用户可根据需求定制视频模板和AI形象。此外,黑骏的视频可二次编辑,使其在国际市场,特别是电商出海方面,具有广泛应用空间。

 

外星技术旗下的外星播报同样关注市场出海营销,提供数字人视频生成,覆盖60多个国籍的数字人形象,支持120多种语种和口音,便于用户创造出海营销内容。外星播报面向的是较小的B端商户,未来有望成为外星重要的收入增长点。

 

总的来说,人工智能生成的视频代表了一种新兴的技术方向。目前的技术途径与图像生成有所类似,主要依赖于深度学习模型,如Transformers和DevelopmentalModels。实施细节上可能存在差异,如关键帧的生成或是加入时间序列的端到端生成,但整体迭代趋势相似。目前面临的挑战包括数据集的完善、生成内容的一致性,以及较高的算力成本,这些问题正在不断解决中。视频是目前网络上占比最高的内容形式,随着视频生成技术的成熟和生成门槛的降低,未来市场将有很大的发展空间。海外市场主要由一些领先企业探索,而国内市场则由多模态企业及传媒应用领域的公司为主。


作者利益披露:转载,不作为证券推荐或投资建议,旨在提供更多信息,作者不保证其内容准确性。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
福石控股
S
吉视传媒
工分
4.73
转发
收藏
投诉
复制链接
分享到微信
有用 2
打赏作者
无用
真知无价,用钱说话
0个人打赏
同时转发
评论(1)
只看楼主
热度排序
最新发布
最新互动
  • 1
前往