全面对标Sora,中国首个自研视频大模型Vidu发布

全面对标Sora,中国首个自研视频大模型Vidu发布
2024年04月27日 17:32 北京日报客户端

一辆越野车行驶在森林中,阳光透过树叶的缝隙,形成一道道斑驳的光束,洒在越野车的车身上,闪烁着金属般的光泽……

4月27日

在2024中关村论坛年会

人工智能主题日期间

举办了未来人工智能先锋论坛

在论坛现场

生数科技联合清华大学

正式发布

中国首个

长时长、高一致性、高动态性

视频大模型

Vidu

该模型采用团队原创的Diffusion与Transformer融合的架构U-VT,支持一键生成长达16秒、分辦率高达1080P的高清视频内容。Vidu不仅能够模拟真实物理世界,还拥有丰富想象力,具备多镜头生成、时空一致性高等特点。Vidu是自Sora发布之后全球率先取得重大突破的视频大模型,性能全面对标国际顶尖水平,并在加速迭代提升中

根据现场演示的效果

Vidu能够模拟真实的物理世界

能够生成细节复杂

并且符合真实物理规律的场景

例如合理的光影效果、细腻的人物表情等

它还具有丰富的想象力

能够生成真实世界不存在的虚构画面

创造出具有深度和复杂性的

超现实主义内容

例如

“画室里的一艘船正在海浪中驶向镜头”

清华大学人工智能研究院副院长、生数科技首席科学家朱军表示,“作为中国自研视频大模型,Vidu还能理解中国元素,能够在视频中生成例如熊猫、龙等特有的中国元素。”

此外

Vidu能够生成复杂的动态镜头

不再局限于简单的推、拉、移等镜头

而是能够围绕统一主体

在一段画面里实现远景、近景、中景、特写等

不同镜头的切换

包括能直接生成

长镜头、追焦、转场等效果

给视频注入镜头语言

值得一提的是,短片中的片段都是从头到尾连续生成,没有明显的插帧现象,从这种“一镜到底”的表现能够推测出,Vidu采用的是“一步到位”的生成方式,从文本到视频的转换是直接且连续的,在底层算法实现上是基于单一模型完全端到端生成,不涉及中间的插帧和其他多步骤的处理。

“在今年2月,文生视频大模型Sora发布后,我们发现其刚好和我们的技术路线是高度一致的,这也让我们坚定地进一步推进了自己的研究。”朱军说。

据悉,Sora发布推出后,Vidu团队基于对U-ViT架构的深入理解以及长期积累的工程与数据经验,在短短两个月进一步突破长视频表示与处理关键技术,研发推出Vidu视频大模型,显著提升视频的连贯性与动态性。

从图文任务的统一到融合视频能力

作为通用视觉模型

Vidu能够支持生成

更加多样化、更长时长的视频内容

面向未来

灵活架构也将能够兼容

更广泛的模态

进一步拓展多模态通用能力的边界

Vidu的问世

不仅是U-VIT融合架构

在大规模视觉任务中的又一次成功验证

也代表了生数科技

在多模态原生大模型领域的

持续创新能力和领先性

朱军表示,大模型的突破是一个多维度、跨领域的综合性过程,需要技术与产业应用的深度融合。因此在发布之际,生数科技正式推出“Vidu大模型合作伙伴计划”,诚邀产业链上下游企业、研究机构加入,共同构建合作生态。

记者:魏颖 郭思岐

编辑:关镓萍

海量资讯、精准解读,尽在新浪财经APP
镜头

VIP课程推荐

加载中...

APP专享直播

1/10

热门推荐

收起
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

股市直播

  • 图文直播间
  • 视频直播间

7X24小时

  • 04-29 瑞迪智驱 301596 25.92
  • 04-25 欧莱新材 688530 9.6
  • 04-01 宏鑫科技 301539 10.64
  • 03-29 灿芯股份 688691 19.86
  • 03-27 无锡鼎邦 872931 6.2
  • 新浪首页 语音播报 相关新闻 返回顶部