注册

新浪财经APP

抢先体验豆包AI视频模型！中国“Sora”争夺战，字节赢了吗？

抢先体验豆包AI视频模型！中国“Sora”争夺战，字节赢了吗？

2024年09月30日 15:05 新榜官微

语音播报缩小字体放大字体微博微信 0

作者 | 阿虎月山橘编辑 | 张洁

豆包终于补齐了视频生成这块重要拼图。

在今天的火山引擎AI创新巡展深圳站上，字节一口气发布了两款视频生成模型：Seaweed和PixelDance（以下简称“S模型”和“P模型”）。

目前，火山引擎已经面向部分企业用户和即梦个人用户开启了邀请测试。

在竞逐激烈的AI视频生成赛道，因为有着海量、丰富的高质量视频数据集，字节、快手等短视频平台下场做视频模型有着天然的优势。

而字节豆包视频模型的表现，也不负众望地诠释了那句“Treasure in, treasure out”。

“AI新榜”有幸抢先体验了一波，试完我们只能说，AI视频创企们想要再造一个“抖音/TikTok”，恐怕没那么容易了。

概括来说，豆包视频模型的亮点主要包括：

精准语义理解，多动作多主体交互：相比于大部分视频生成模型只能完成单一动作的简单指令，豆包视频生成模型可以生成丝滑连贯的多动作和多主体交互。强大的动态效果，灵活运镜控制：支持变焦、环绕、平摇、缩放，目标跟随等多种镜头语言。一致性切镜：在多个镜头切换时，保持主体、风格、氛围和逻辑的一致性，大幅提升了视频的叙事能力。高保真、高美感、支持多种美学风格和不同比例：影视级画面质感，专业级色彩和和光影布局。支持包括黑白水墨画、3D动画、2D动画、国画、厚涂等多种风格，以及1:1、3:4、4:3、16:9、9:16、21:9六种比例，适配各种终端，以及电影、手机竖屏等不同画幅。

高调登场的豆包视频大模型在生成表现上如何？让我们先用一条视频，快速看看测试效果！（为方便区分，视频无水印版为P模型，带有“即梦AI”水印为S模型）

详情见AI新榜视频号

更多细节解读，我们接着聊：

超强语义理解，梗图走向不再“抽象”

此次上线的PixelDance模型是团队开发的DiT结构的视频生成大模型，最大优势是具有精准的语义理解能力，还能保证主体、风格、氛围的一致性。

要知道，AI视频生成在处理物理运动，尤其是人物动作方面非常容易出错。但P模型在多主体、多镜头表现上足够让人惊讶。

比如，这张经典的梗图，豆包生成的视频动作幅度大，对于提示词的理解也更到位。更关键的是，三个人物之间的互动自然，有不同的人物动作表现。

提示词：男子看着走过去的红衣美女，吹起了口哨，站在他一边的女士惊讶地看着他，接着甩开男子的手离开了。

相比之下，可灵的图生视频对于多主体控制就略逊一筹。镜头一转，蓝衣女主秒变“恋爱脑”，抱着男主不放。这么看来，要论脑洞，还是得选可灵。

可灵AI 1.5生成

还有任何一款AI视频工具都逃不过的“威尔史密斯吃面”：

提示词：一个男人正在吃意大利面，一边拿起酒杯喝起了红酒

图片+提示词也能轻松应对，不仅可以保证人物的一致性，包括嘴部也没有出现明显瑕疵，还能遵循提示词中的“喝起了红酒”。

镜头无缝切换，实现逼真视觉效果

镜头运动：

提示词：第一人称视角，女子开着车在夜晚的街道行驶，镜头切到车窗外，窗外有烟花绽放。

可以看到，根据不同的镜头提示词，豆包视频生成模型可以让镜头跟随，实现镜头的缩放、变焦等等。

提示词：由巨大绿树组成的神秘森林，树枝像无尽的藤蔓向四周蔓延，森林中的光线从缝隙中洒落。

此外，豆包视频模型在处理写实类风景方面表现出色，生成画面更偏向真实世界场景。同样的提示词让最新的可灵1.5生成的效果更梦幻一点：

可灵AI 1.5生成

此次更新，豆包视频生成模型能够实现多镜头切换，并保持主体、风格、氛围一致性。

提示词：近距离拍摄一位女歌手举起手机与粉丝们合照。

在提示词中我们要求进行镜头切换，从特写镜头转向到全景镜头。从视频生成的效果来看，除了最后一帧动作奇怪之外，Taylor人物的脸部没有出现明显的技术瑕疵，整个视频画面流畅。

提示词：女人向右移动，男人站在原地打电话，镜头拉远露出繁忙的街道。

综合表现来看，豆包在镜头运动、人物面部控制等方面都有一定优势，可以说，生成视频的“AI味”越来越少了。

风格化：

上周我们实测的通义万相在生成古诗词方面的表现可谓惊艳，来看看豆包大模型表现如何。

提示词：枯藤老树昏鸦，小桥流水人家，古道西风瘦马。夕阳西下，断肠人在天涯。

相比通义万相的动画风格，豆包生成的视频对“枯藤老树”“小桥流水”“夕阳”等元素进行了想象重现，画面在光影和视觉效果上相当惊喜。

值得一提的是，豆包生成视频后，我们可以选择是否进行“AI配乐”，为视频加入声音效果，进一步简化视频制作流程。

写在最后

距离OpenAI官宣Sora仅过去了半年，国内头部互联网大厂和AI视频创企纷纷发力，试图争夺中国“Sora”的头把交椅。

3月，AI创企爱诗科技发布视频生成大模型PixVerse，目前已历经多次更新迭代。

6月，快手发布视频生成大模型“可灵”，对标Sora，支持通过文生视频、图生视频、视频续写功能，可生成最长2分钟、30fps的1080p高分辨率视频。

7月，生数科技旗下的视频模型Vidu面向公众开放，能生成15s的视频，且大大缩短了生成所需要的时间。同期，爱诗科技发布视频生成大模型PixVerse V2，全球同步开放。

8月，大模型厂商智谱AI发布AI视频工具“清影”，并将模型“CogVideoX”开源。

9月19日，在云栖大会上，阿里云CTO周靖人宣布通义万相全面升级，并发布全新视频生成模型，可生成影视级高清视频，应用于影视创作、动画设计、广告设计等领域。

9月23日，美图公司宣布旗下美图奇想大模型（MiracleVision）视频生成能力、生成效率以及模型性能全面升级。

豆包视频生成模型发布后，有人称“字节终结了比赛”，最终结论如何，相信很快会得到验证。

头条号入驻

新榜官微服务于内容产业，以内容服务产业

财经自媒体联盟更多自媒体作者

今日推荐优秀作者看点月榜

新浪财经头条意见反馈留言板

4000520066 欢迎批评指正

关于头条 | 如何入驻 | 发稿平台 | 奖励机制版权声明 | 用户协议 | 帮助中心

Copyright © 1996-2019 SINA Corporation
All Rights Reserved 新浪公司版权所有

新浪首页语音播报返回顶部