中关村论坛|国内首个纯自研视频大模型发布|镜头_新浪财经

转自：千龙网

昨天(27日)，在2024中关村论坛年会未来人工智能先锋论坛上，生数科技联合清华大学发布中国首个长时长、高一致性、高动态性的视频大模型——Vidu。Vidu不仅能够模拟真实物理世界，还拥有丰富的想象力，具备多镜头生成、时空一致性高等特点，这也是自文生视频大模型Sora发布之后全球率先取得重大突破的视频大模型。

根据现场演示的视频，Vidu能够模拟真实的物理世界，生成细节复杂、并符合真实物理规律的场景，例如逼真的光影效果、细腻的人物表情等。此前，正是由于展示出了大模型理解物理世界规律、模拟真实世界的能力，Sora的出现令人大呼震惊。

Vidu还具有丰富的想象力，能够生成真实世界不存在的虚构画面，创造出具有深度和复杂性的超现实主义内容，例如“画室里的一艘船正在海浪中驶向镜头”这样的场景。此外，它能够生成复杂的动态镜头，不再局限于简单的推、拉、移等固定镜头，而是能够围绕统一主体在一段画面里实现远景、近景、中景、特写等不同镜头的切换，包括能直接生成长镜头、追焦、转场等效果，给视频注入镜头语言。

记者观察到，与Sora一样，Vidu生成的短片片段都是从头到尾连续生成，没有明显的插帧现象。作为中国自研视频大模型，Vidu还能理解中国元素，能够在视频中生成例如熊猫、龙等特有的中国元素。

清华大学人工智能研究院副院长、生数科技首席科学家朱军介绍，Vidu的快速突破源自于技术团队在贝叶斯机器学习和多模态大模型的长期积累和多项原创性成果。其核心技术U-ViT架构由团队于2022年9月提出，是全球首个Diffusion与Transformer融合的架构，完全由团队自主研发。

“在Sora发布后，我们发现它刚好和我们的技术路线是高度一致的，这也让我们坚定地进一步推进自己的研究。”朱军说，团队在两个月内进一步突破长视频表示与处理关键技术，研发推出了Vidu视频大模型。业内预测，视频大模型有望率先在影视、广告、游戏、建筑设计、艺术创作等行业掀起变革。