新火种AI|中国首个自研视频大模型Vidu上线！中国人也有了自己的Sora_

作者：小岩

编辑：彩云

4月27日，未来人工智能先锋论坛在2024中关村论坛年会人工智能主题日举办。在本次论坛上，有一件里程碑式的事件发生：生数科技联合清华大学正式发布中国首个长时长，高一致性，高动态性视频大模型Vidu。

国内首个纯自研的视频大模型，究竟有何特别之处？

根据介绍，该模型采用了团队原创的Diffusion与Transformer融合的架构U-VT，支持一键生成长达16秒，分辦率高达1080P的高清视频内容。Vidu不仅能够模拟真实物理世界，还拥有丰富想象力，具备多镜头生成，时空一致性高等特点。

值得一提的是，Vidu是自Sora发布之后，全球率先取得重大突破的视频大模型，性能全面对标国际顶尖水平，并在加速迭代提升中，完全有能力与Sora抗衡。

根据现场演示的效果，Vidu能够模拟真实的物理世界，生成细节复杂且符合真实物理规律的场景，诸如合理的光影效果，细腻的人物表情等。此外，它还具有丰富的想象力，能够生成真实世界不存在的虚构画面，创造出具有深度和复杂性的超现实主义内容，譬如“画室里的一艘船正在海浪中驶向镜头”。

Vidu还能够生成复杂的动态镜头，不只局限于简单的推，拉，移等镜头，而是能够围绕统一主体在一段画面里实现远景，近景，中景，特写等不同镜头的切换，直接生成长镜头，追焦，转场等效果也不在话下，给视频注入丰富的镜头语言。

需要说明的是，短片中的片段都是从头到尾的连续生成，没有明显的插帧现象。通过这种“一镜到底”的表现能够推测出，Vidu采用的是“一步到位”的生成方式，从文本到视频的转换是直接且连续的，在底层算法实现上是基于单一模型完全端到端生成，不涉及中间的插帧和其他多步骤的处理。

Sora推出两月后迎头赶上，Vidu的未来大有可为。

Sora在今年2月刚刚上线，2个月之后国内便有了Vidu，可见Vidu技术团队的效率之高。

Vidu 发布后，清华大学 AI 研究院副院长，生数科技首席科学家表示，“在今年2月，文生视频大模型Sora发布后，我们发现其刚好和我们的技术路线是高度一致的，这也让我们坚定地进一步推进了自己的研究”。

据悉，Sora发布推出后，Vidu团队基于对U-ViT架构的深入理解以及长期积累的工程与数据经验，在短短两个月进一步突破长视频表示与处理关键技术，研发推出Vidu视频大模型，显著提升视频的连贯性与动态性。

更难得的是，Vidu能够深刻理解并展现中国元素，特别注重文化适应性，能够生成具有中国特色的元素，诸如熊猫、龙等等。既为跨文化交流与传播提供了有力支持，也为我们的文化自信注入了新的活力。

概括说来，Vidu的快速突破，离不开算法原理，模型架构，算力资源，数据治理，工程实现这5大要素的完美结合。如今的Vidu正在加速迭代，未来还将兼容更广泛的多模态能力，为我们带来更多惊喜。而Vidu的孵化者生数科技，自成立以来已经获得了多家知名产业机构的投资，完成了数亿元的融资，成为国内多模态大模型赛道的佼佼者。

从某种程度上说，Vidu很可能先走了一步...

“Vidu，we do, we did, we do together”，这是在Vidu发布后，朱军教授在朋友圈写下的一段话。

乍一看上去，Vidu是清华大学联合大模型创业公司生数科技用两个半月交出的一份新答卷。但事实上，任何一次惊艳全场都离不开长时间的深耕细作。

根据生数科技的官方介绍， Vidu 模型之所以取得快速突破，源自于该团队在贝叶斯机器学习和多模态大模型的长期积累和多项原创性成果。早在 2022 年 9 月，出于对标当时刚刚开源的 Stable Diffusion，清华团队提交了一篇名为《All are Worth Words: A ViT Backbone for Diffusion Models》的论文，里面提出了全球首个 Diffusion 与 Transformer 融合的架构，比 Sora 采用的 DiT 架构还要再早两个月。到了去年 3 月，团队开源了全球首个基于 U-ViT 融合架构的多模态扩散模型 UniDiffuser，率先完成了 U-ViT 架构的大规模可扩展性验证，一举实现了从简单的文生图扩展到图生文，图文改写等多种功能。正是基于对 U-ViT 架构的深入理解以及长期积累的工程与数据经验，团队才能在短短两个月里进一步突破了长视频表示与处理的多项关键技术，成功研发出 Vidu 视频大模型。

3 月份的 Vidu还只能生成 8 秒的视频，就连生数科技的CEO都认为想要达到Sora的版本效果，至少需要3个月的时间。但如今，仅仅一个月的时间，Vidu 就在技术上迎来突破，不仅画面效果逼近 Sora 的水准，视频生成的时长也扩展到了 16 秒。

反观当初被外界一致叫好的Sora，其实也存在着巨大的短板和漏洞。与 Sora 合作的加拿大制作公司Shy Kids就对外界爆料，声称“从 Sora 生成的素材到最终成品之间的差距，不亚于买家秀和买家秀的区别。具体来说，生成的原始素材与最终使用素材的比例高达300：1，也就是说，为得到一秒的有效画面，制作团队需要并审查长达 300 秒的原始素材，对筛选和判断能力提出极高的要求。

这意味着OpenAI的研究人员最初在开发 Sora 的时候，更多地将注意力集中在图像生成的技术层面，却没有考虑到创作者在实际应用中对镜头语言的需求。