此前AI视频生成的技术路线主要有2大类: 一类是Diffusion Model扩散模型技术路线主要玩家包括Runway、Pika Labs等。 一类是基于Transformer架构的大语言模型生成视频技术路线。
去年12月底谷歌发布了基于大语言模型的生成式AI视频模 古巴电话号码列表 型VideoPoet这在当时被视为生成视频领域中扩散模型之外的另外一种解法和出路。 Diffusion Model将一张图片通过引入噪声使其变成原始马赛克在通过引入“神经网络”如基于卷积神经网络CNN的UNet结构从某个时间点的画面减去预测的噪音得到的就是最原始没有噪音的画面也就是最终生成的画面。
大语言模型则是通过视频数据来对大模型进行训练使其能够理解视频数据中的基本Token词汇以及所对应的视频画面。当用户给予指令词之后其就能够根据学习到的Token词汇生成对应的视频内容。 两种技术路线都存在各自的优劣势单一模型所生成的视频在时长和画面效果上都难以实现根本性突破。
Sora则选择了将扩散模型和Transformer模型结合的技术架构体系-DiTDiffusion + Transformer 架构。 有业内观点认为Sora是将Diffusion扩散模型中的U-Net架构替换成了Transformer架构。