计算机行业Sora有望带来AI生成视频领域的新一轮变革-24021819页

报告摘要

Sora对AI生成视频产业的影响：Transformer或异军突起，头部效应可能更明显，离AGI又更进一步

➢ Transformer可能逐渐取代U-Net成为扩散模型中去噪网络的首选：Transformer-diffusion在AI视频生成领域的核心痛点在于内存需求随着输入序列长度增加会指数级增长，处理视频信号的成本很高，没办法生成高分辨率的图像；Sora通过引入视频压缩网络（含时空自编码器与解码器）&Pacth化解决了这个问题，Transformer对时间帧的记忆有优势，因此生成长视频过程中比U-Net更能保证帧与帧之间的连续性，分辨率短板补足后很可能取代U-Net成为扩散模型中的主流backbone。

➢ Sora证明了AI生成视频领域同样适用“参数量越大+训练时间越长 = 训练效果越好” ：Transformer的特征是可拓展性强，模型参数量越大、训练数据集越大、训练时间越长效果就会越好；Sora通过其强大的涌现能力再次说明了这一点，即“参数量越大+训练时间越长 = 训练效果越好”，AI生成视频可能带来新一轮算力需求爆发。

➢ AI生成视频与LLM是勾稽的，这个领域很可能还是强者恒强：Sora语义信息理解能力强大的背后是通过GPT来重新生成高度描述性的caption，从而提高视频-文本对数据集的质量，再次说明没有优质的训练数据集很难做出好的模型，而视频标注的难度又远大于文本与图像，对于视频自动标注模型的要求非常高。以OpenAI（微软）、Google为代表的多模态头部厂商依然优势明显，纯粹做模型的初创公司在AI生成视频领域的机会或许不大。此外，做安防&自动驾驶的公司可能会有差异化的机会，得益于大量的视频数据积累，有能力开发高质量的视频自动标注模型&拥有优质的“视频-文本对”数据集（可以自用也可以出售）。

➢ AI生成视频领域的“Midjourney时刻”可能很快到来：Transformer模型的涌现特征意味着模型提升的速度将非常快，文生视频从可用到好用的拐点或加速到来，应用生态也有望加速繁荣。

➢ 离实现AGI又前进了一步：Sora展现出的理解能力、推理能力已经有些世界模型的雏形（通过预测周围环境未来的变化，来规划决策），人类迈向通用人工智能的脚步或许又快了一些。