中国首个视频大模型Vidu颠覆而来,性能全面对标Sora!

中国首个视频大模型Vidu颠覆而来,性能全面对标Sora!
2024年04月29日 17:06 今日商讯官微

《中国AIGC应用全景报告》指出,今年中国AIGC(生成式人工智能)应用市场规模将达200亿元,到2030年将达万亿规模,2024年到2028年的年平均复合增长率将超30%。在这个炙手可热的赛道上,新模型与新应用正持续涌现,不断颠覆着内容生产模式。

4月27日,在中关村论坛未来人工智能先锋论坛上,生数科技联合清华大学正式发布了中国首个长时长、高一致性、高动态性视频大模型Vidu。这是自Sora发布之后全球率先取得重大突破的视频大模型,性能全面对标国际顶尖水平。

与Sora一致,Vidu能够根据提供的文本描述直接生成长达16秒的高质量视频,且分辨率高达1080P。

生数科技方面介绍,Vidu采用的核心技术U-ViT架构,由团队于2022年9月提出,早于Sora采用的DiT架构,是全球首个Diffusion(扩散概率模型)与Transformer融合的架构,完全由团队自主研发。

当前,Vidu主要有以下特点与优势:

一是模拟真实物理世界,可以生成复杂、细节丰富的场景,光影效果与人物表情都能够符合真实的物理规律。

二是富有想象力,可以虚构场景以及想象超现实主义的画面。

三是具有多镜头语言,不再局限于固定镜头,能够在遵循主体一致性的情况下实现远景、近景、中景、特写等不同镜头的动态切换,还可以实现长镜头、追焦等效果。

四是有出色的视频时长,能支持16秒长度的视频生成,保持镜头和主体的连贯一致。

五是能理解中国元素,可以更好地理解生成熊猫、龙等富有中国文化特色的形象。

在生数科技发布的Vidu模型生成视频样片中,视频的整体质感可与Sora相媲美,并能创造出具有深度和复杂性的超现实主义内容,比如“画室里的一艘船正在海浪中驶向镜头”。

Vidu背后的生数科技成立于2023年3月,公司创始团队来自清华大学人工智能研究院,是全球范围内最早从事扩散概率模型研究的团队之一。截至目前,生数科技已完成数亿元融资,投资方包括启明创投、蚂蚁集团、BV百度风投、达泰资本、锦秋基金、卓源亚洲等知名机构。

目前全世界有3.05亿视频创作者,每天有200亿次以上的视频播放量,视频需求非常大。在“视频为王”的时代,文生视频大模型Vidu的问世,有望推动视频创作者生产力革命,大幅降低生产成本与创作门槛!

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部