李飞飞谷歌破局之作！用Transformer生成逼真视频，下一个Pika来了？

原创新智元新智元 2023-12-12

【新智元导读】今天，李飞飞携斯坦福联袂谷歌，用Transformer生成了逼真视频，效果媲美Gen-2比肩Pika。2023年俨然已成AI视频元年！

视频大数据时代，真的来了！

刚刚，李飞飞的斯坦福团队同谷歌合作，推出了用于生成逼真视频的扩散模型W.A.L.T。这是一个在共享潜在空间中训练图像和视频生成的，基于Transformer的扩散模型。W.A.L.T的方法有两个关键决策。

首先，研究者使用因果编码器在统一的潜在空间内联合压缩图像和视频，从而实现跨模态的训练和生成。其次，为了提高记忆和训练效率，研究者使用了为空间和时空联合生成建模量身定制的窗口注意力架构。通过这两个关键决策，团队在已建立的视频（UCF-101 和 Kinetics-600）和图像（ImageNet）生成基准测试上实现了SOTA，而无需使用无分类器指导。最后，团队还训练了三个模型的级联，用于文本到视频的生成任务，包括一个基本的潜在视频扩散模型和两个视频超分辨率扩散模型，以每秒8帧的速度，生成512 x 896分辨率的视频。W.A.L.T的关键，是将图像和视频编码到一个共享的潜在空间中。

Transformer主干通过具有两层窗口限制注意力的块来处理这些潜在空间——空间层捕捉图像和视频中的空间关系，而时空层模拟视频中的时间动态，并通过身份注意力掩码传递图像。

Transformer概念股一览：

汉王科技：汉王科技的Transformer技术可以用于文本的自动撰写和生成，例如新闻标题自动撰写，以及机器写作等。

中科金财：公司智能客服机器人采用的是Transformer神经网络算法，形成了面向复杂NLP语义识别和内容生成的智能机器人对话系统、自动代码生成引擎、自动流程指令生成引擎。