核心观点
Sora是第一个表现出"涌现"能力的视频生成模型：随着模型规模增大而出现“理解世界”的能力。虽然许多LLM，如
ChatGPT和GPT-4，表现出涌现能力，但在Sora出现之前，展示类似能力的视觉模型一直很少。根据Sora的技术
报告，它是第一个表现出确认的涌现能力的视觉模型，标志着计算机视觉领域的一个重要里程碑。
Sora的成功源于DiffusionTransformer架构的引入，和过去多年高质量数据的积累。
从架构上看，视频生成模型的技术路线开始收敛，Sora的DiffusionTransformer架构证实了有效scale-up也即是
增加算力能够对提升视频生成的精细度和效果，是视频生成领域的"GPT-3时刻"。类似于GPT-3证明了更大的训练量、
模型参数量、Token数量，训练效果越好。引入了Transformer的Sora也表现出了同样的趋势，OpenAI进行了32x
训练量和1x、4x训练量的对比，从结果上看，32x训练量的生成效果远远强于1x和4x的生成效果。在Sora发布后
Google、Snap也发布了采用类似技术的视频生成模型，确定了DiffusionTransformer的视频生成路线，并且算力的
需求会大大提升。
从数据上看，高质量的数据对视频生成模型的训练至关重要，Sora利用自有工具增强训练数据集与提示工程。OpenAI
训练了专用的视频字幕模型来为视频生成详细描述，生成高质量的视频-字幕对，用于微调Sora以提高其指令跟随
能力。同时为了确保用户提示与训练数据中这些描述性标题的格式保持一致，Sora执行了一个额外的提示扩展步骤，
即调用GPT-4V模型将用户输入扩展到详细的描述性提示。
我们认为，随着DiffusionTransformer类模型大量应用于图像及视频生成，推理需求将大幅增加，与LLM推理更需
要内存带宽的资源需求不同，视觉模型推理将对芯片本身算力和内存容量提出更高要求。Sora的DiT和大语言模型
在推理时的逻辑不同，Diffusion需要约20Steps优化过程，每次均是计算的完整的patch，访存需求也会大大下降，
从LLM推理的访存密集型场景转变成算力密集型场景。
Sora高质量的视频生成对影视和游戏行业的影响是最直接而深远的，降低制作门槛并且很有可能重塑影视和游戏制
作的流程与格局。高质量的视频生成对于影视行业的工作流会有深远的影响，前期可以替代掉分镜以及概念片制作，
后期可以取代部分特效制作。对于游戏行业，游戏开发人员可能会使用它来生成自定义的视觉效果，甚至是从玩家叙
述中生成角色动作。
风险提示
模型架构的大幅改变影响算力需求分布
算力速度发展不及预期
中美科技领域政策恶化

【行业研究报告】信息技术-AI模型系列报告：从世界模型看算力需求变化

相关图表

其他推荐