横空出世的Sora 对传媒行业带来哪些影响？_

6日，美国人工智能公司OpenAI发布了最新的“文生视频”大模型Sora，并同时公布了一系列样片，展现了较为惊艳的视频生成效果。尽管Sora仍处于开发早期阶段，但它的推出类似于2021年问世的OpenAI初代“文生图像”系统DALL-E，标志着AI生成视频有望提速。

现阶段，文字、图片、音频的AI生成都已较为成熟，图片领域Stable Diffusion、Midjourney等工具已广泛应用于游戏、广告营销行业的日常经营之中，但AI视频生成的应用尚不完善。而移动互联网中，视频是消耗用户时长最多的内容形态。AI生成视频短期可以应用在广告营销、短剧等对画质要求较低的领域，长期则在影视制作等领域有较大空间。

AI视频生成的难点在于，一方面视频是连续的多帧图像，并且要有逻辑性，并非简单的图片组合，另一方面带来模型复杂度提升、计算难度和成本的提升，此外，文生视频需要大量的“文本-视频”配对数据，而目前缺乏多样化的数据集，且数据标注的工作量较大。因而此前视频大多为5-15秒，而Sora将视频时长提升至1分钟，支持生成多个镜头，同时基本维持了角色和视觉风格的一致性，并能在一定程度上“理解”现实世界。

技术角度来看，Sora采用了“扩散+Transformer”的视频生成大模型技术路线，可谓有了里程碑式的技术进步。相比以往使用的同为扩散模型的U-Net，Transformer架构的参数可拓展性强，即参数量增加，性能加速提升，同时支持任意分辨率、长宽比、时长的视频训练数据，不会因为压缩导致训练数据质量下降。此外，Sora训练了能在时间和空间上压缩视频的自编码器，这也是其能够大幅提升生成视频时长的原因。

商业角度来看，从“idea或IP→内容生产→内容分发”的产业链，长期预计视频生产的成本将大幅降低。目前AI生成视频的水平还有待提升，可能更适合做对视频质量要求低的互联网广告素材，如游戏买量素材等。由于Sora基本处于闭源状态，技术细节并未公布，相比于GPT有较多开源模型而言，国内视频生成模型方面尚有差距，利好有idea但落地较慢的动画电影公司、IP公司、以及能够降本增效的游戏行业。