抢先体验豆包AI视频模型!中国“Sora”争夺战,字节赢了吗?

抢先体验豆包AI视频模型!中国“Sora”争夺战,字节赢了吗?
2024年09月30日 15:05 新榜官微

作者 | 阿虎 月山橘编辑 | 张洁

豆包终于补齐了视频生成这块重要拼图。

在今天的火山引擎AI创新巡展深圳站上,字节一口气发布了两款视频生成模型:Seaweed和PixelDance(以下简称“S模型”和“P模型”)。

目前,火山引擎已经面向部分企业用户和即梦个人用户开启了邀请测试。

在竞逐激烈的AI视频生成赛道,因为有着海量、丰富的高质量视频数据集,字节、快手等短视频平台下场做视频模型有着天然的优势。

而字节豆包视频模型的表现,也不负众望地诠释了那句“Treasure in, treasure out”。

“AI新榜”有幸抢先体验了一波,试完我们只能说,AI视频创企们想要再造一个“抖音/TikTok”,恐怕没那么容易了。

概括来说,豆包视频模型的亮点主要包括

精准语义理解,多动作多主体交互:相比于大部分视频生成模型只能完成单一动作的简单指令,豆包视频生成模型可以生成丝滑连贯的多动作多主体交互强大的动态效果,灵活运镜控制:支持变焦、环绕、平摇、缩放,目标跟随等多种镜头语言。一致性切镜:在多个镜头切换时,保持主体、风格、氛围和逻辑的一致性,大幅提升了视频的叙事能力。高保真、高美感、支持多种美学风格和不同比例:影视级画面质感,专业级色彩和和光影布局。支持包括黑白水墨画、3D动画、2D动画、国画、厚涂等多种风格,以及1:1、3:4、4:3、16:9、9:16、21:9六种比例,适配各种终端,以及电影、手机竖屏等不同画幅。

高调登场的豆包视频大模型在生成表现上如何?让我们先用一条视频,快速看看测试效果!(为方便区分,视频无水印版为P模型,带有“即梦AI”水印为S模型)

详情见AI新榜视频号

更多细节解读,我们接着聊:

超强语义理解,梗图走向不再“抽象”

此次上线的PixelDance模型是团队开发的DiT结构的视频生成大模型,最大优势是具有精准的语义理解能力,还能保证主体、风格、氛围的一致性。

要知道,AI视频生成在处理物理运动,尤其是人物动作方面非常容易出错。但P模型在多主体、多镜头表现上足够让人惊讶。

比如,这张经典的梗图,豆包生成的视频动作幅度大,对于提示词的理解也更到位。更关键的是,三个人物之间的互动自然,有不同的人物动作表现。

提示词:男子看着走过去的红衣美女,吹起了口哨,站在他一边的女士惊讶地看着他,接着甩开男子的手离开了。

相比之下,可灵的图生视频对于多主体控制就略逊一筹。镜头一转,蓝衣女主秒变“恋爱脑”,抱着男主不放。这么看来,要论脑洞,还是得选可灵。

可灵AI 1.5生成

还有任何一款AI视频工具都逃不过的“威尔史密斯吃面”:

提示词:一个男人正在吃意大利面,一边拿起酒杯喝起了红酒

图片+提示词也能轻松应对,不仅可以保证人物的一致性,包括嘴部也没有出现明显瑕疵,还能遵循提示词中的“喝起了红酒”。

镜头无缝切换,实现逼真视觉效果

镜头运动:

提示词:第一人称视角,女子开着车在夜晚的街道行驶,镜头切到车窗外,窗外有烟花绽放。

可以看到,根据不同的镜头提示词,豆包视频生成模型可以让镜头跟随,实现镜头的缩放、变焦等等。

提示词:由巨大绿树组成的神秘森林,树枝像无尽的藤蔓向四周蔓延,森林中的光线从缝隙中洒落。

此外,豆包视频模型在处理写实类风景方面表现出色,生成画面更偏向真实世界场景。同样的提示词让最新的可灵1.5生成的效果更梦幻一点:

可灵AI 1.5生成

此次更新,豆包视频生成模型能够实现多镜头切换,并保持主体、风格、氛围一致性。

提示词:近距离拍摄一位女歌手举起手机与粉丝们合照。

在提示词中我们要求进行镜头切换,从特写镜头转向到全景镜头。从视频生成的效果来看,除了最后一帧动作奇怪之外,Taylor人物的脸部没有出现明显的技术瑕疵,整个视频画面流畅。

提示词:女人向右移动,男人站在原地打电话,镜头拉远露出繁忙的街道。

综合表现来看,豆包在镜头运动、人物面部控制等方面都有一定优势,可以说,生成视频的“AI味”越来越少了。

风格化:

上周我们实测的通义万相在生成古诗词方面的表现可谓惊艳,来看看豆包大模型表现如何。

提示词:枯藤老树昏鸦,小桥流水人家,古道西风瘦马。夕阳西下,断肠人在天涯。

相比通义万相的动画风格,豆包生成的视频对“枯藤老树”“小桥流水”“夕阳”等元素进行了想象重现,画面在光影和视觉效果上相当惊喜。

值得一提的是,豆包生成视频后,我们可以选择是否进行“AI配乐”,为视频加入声音效果,进一步简化视频制作流程。

写在最后

距离OpenAI官宣Sora仅过去了半年,国内头部互联网大厂和AI视频创企纷纷发力,试图争夺中国“Sora”的头把交椅。

3月,AI创企爱诗科技发布视频生成大模型PixVerse,目前已历经多次更新迭代。

6月,快手发布视频生成大模型“可灵”,对标Sora,支持通过文生视频、图生视频、视频续写功能,可生成最长2分钟、30fps的1080p高分辨率视频。

7月,生数科技旗下的视频模型Vidu面向公众开放,能生成15s的视频,且大大缩短了生成所需要的时间。同期,爱诗科技发布视频生成大模型PixVerse V2,全球同步开放。

8月,大模型厂商智谱AI发布AI视频工具“清影”,并将模型“CogVideoX”开源。

9月19日,在云栖大会上,阿里云CTO周靖人宣布通义万相全面升级,并发布全新视频生成模型,可生成影视级高清视频,应用于影视创作、动画设计、广告设计等领域。

9月23日,美图公司宣布旗下美图奇想大模型(MiracleVision)视频生成能力、生成效率以及模型性能全面升级。

豆包视频生成模型发布后,有人称“字节终结了比赛”,最终结论如何,相信很快会得到验证。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部