马斯克还在卷10秒,中国AI直接掀桌新智元

1/31/2026

硅谷巨头在AI视频赛道激战正酣,中国AI正面硬刚!今天,Vidu Q3震撼登场,16s音画直出一镜到底,正式开启「视听生成」时代。

2026年的AI视频圈,开局即决战!

硅谷巨头们的贴身肉搏,比想象中来得更早,也更猛烈。

几周前,谷歌Veo 3.1凭借「素材生视频」(Ingredients to Video),超强一致性+4K画质惊艳登场。

坊间传闻Veo 3.2也将蓄势待发

另一边,马斯克也来秀肌肉了。Grok Imagine上线生成10s视频的功能,音画双飞跃。

Runway全新Gen 4.5模型,死磕连贯叙事、高一致性,同样生成时长可达10s。

就在这硝烟弥漫的时刻,中国AI队正式加入战局,并向全球牌桌投下了一枚重磅炸弹。

下一代旗舰模型——Vidu Q3,今日重磅登场!

它带着极具野心的Slogan:「声画同出,创想无界」,直接重新改变了游戏规则。

这是全球首个一键直出16s音视频的模型,做到了一次生成,完整表达。

这意味着,在长达16秒的时长里,Q3能同时处理画面、声音、剧情推进、镜头调度,叙事能力更强。

更惊艳的是,它还支持镜头控制+自由切换、多语言文字渲染,以及专业级漫剧、短剧、电影制作。

在Artificial Analysis最新榜单中,Vidu Q3表现非常亮眼,硬刚马斯克Grok,位列中国第一、全球第二。

不仅如此,它还一举超越了Runway Gen-4.5 ,谷歌Veo3.1和OpenAI Sora 2。

Vidu正在用实力向世界诠释「中国速度」,领跑视频生成的下半场。

Vidu Q3的出世,标志着AI视频正式从「演技生成」,迈入「视听生成」的新时代。

它不再为单帧画面而生,而是为「剧」而生!

Vidu Q3全球燃爆登场

16s一镜到底

现在,Vidu Q3已上线了文生音视频、图生音视频功能。

从Vidu.cn或Vidu API:platform.vidu.cn,抢先体验Vidu Q3全新功能

接下来,就是一波最全面的实测,看看Q3究竟有多强。

一次生成,声画同步

长久以来,AI视频生成领域存在一个巨大的痛点:视频太短,且大多是「哑剧」。

几秒钟的无声画面,充其量只能算一张「会动的海报」,无法承载复杂的情绪和故事。

去年5月,谷歌Veo3的发布真正引爆了原生多模态「音画同步」,彻底终结了这一尴尬局面。

紧接着Runway Gen-3 Alpha、OpenAI Sora 2等模型迭代,也做到了音画一体。

如今,难点又落在了AI视频的时长上。目前,业界鲜有能打的生成超10秒的AI视频工具。

就拿谷歌Veo 3来说,支持最长8秒视频生成。OpenAI Sora 2还比较例外,最长15秒。

而真正做到单次生成16秒时长的,业界只有Vidu Q3了。不用拼接,不用后期合成——一气呵成,完整叙事。

这种震撼,在demo中展现得淋漓尽致。

一艘正在沉没的巨轮船舱内,海水倒灌,船体倾斜已近60度。

其他人都在逃命,唯有一名中年男子安坐在钢琴前演奏,钢琴声、海浪声交织在一起,营造出史诗般的叙事张力。

下面这个案例中,上传一张六格分镜图,让Vidu Q3按步骤生成一个制作视频。

令人惊叹的是,这种分镜效果在Q3视角下,呈现出完全不输真实大片的效果。

Vidu Q3还能轻松复刻电影的经典瞬间,甚至可以支持多种语言,包括中、英、日。

输入《哈利波特》中一张伏地魔的图片,他用低沉的声音宣告:Harry Potter is dead。人物的神态、声音高度还原,口型和音色精准匹配。

在这段中年夫妇的「对手戏」中,Vidu Q3更是交出了一份令人细思极恐的答卷。

画面呈现出经典的胶片质感,两人对视而立,对话声音平静却难掩忧伤。

Q3精准捕捉到了这种「克制的演技」,再配上精准的口型,让对话有了直击人心的真实重量。

Q3还可以来一段即兴的演奏,上传一张男子的图片,让他唱一句:Welcome to vidu Q3 model,瞬间有爵士那味儿了。

Scroll for more