首个可编辑AI语音来了新智元

7/2/2026

全球第一!中国AI语音ViiTorVoice首创「局部编辑」神技:配音错字告别重录,像改Word一样修语音。内附姆巴佩、哈兰德爆笑实测,快来见证!

中国AI,登顶全球第一!

最近,在全球语音权威评测榜单 Seed-TTS 上,突然杀出了一匹令人胆寒的黑马。

它就是ViiTorVoice 。

这个凭空出世的中国模型,将 Qwen3-TTS、CosyVoice3、Fish Audio 等一众主流巨头挑落马下,径直登顶综合排名第一!

凭借英文词错率(WER)1.32、中文词错率0.99的恐怖数据,它一举击穿了行业的极限天花板,成为当前评测体系中,全球首个中文词错率突破 1.0 大关的里程碑模型。

这个登上榜首的AI语音大模型ViiTorVoice,来自国产公司云上曲率。它终结了长久以来的行业痛点:语音无法局部编辑。

这个全球首个具备「局部编辑」能力的AI,将彻底改变了整个行业!

Hugging Face Demo: https://huggingface.co/spaces/ZzWater/ViiTorVoice

GitHub: https://github.com/viitor-ai/viitor-voice-nar

模型权重: https://huggingface.co/ZzWater/ViiTorVoice-NAR

实测:怕饿晕找哈兰德

所以,ViiTorVoice的上手效果究竟如何?

我们用它做了一些实测,看看它到底能不能扛住整活界的考验。

实测一:哈兰德的最新梗——挪威队伙食不够了

昨天,全网都被这条新闻笑喷了。

挪威队参加世界杯,带了3名主厨去美国,还从本国空运食材,就为了喂饱哈兰德。网友热评:哈兰德一个人吃掉了挪威队的伙食预算。

我们立刻整活,找来最近哈兰德最火的广告,用ViiTorVoice把原广告词变成了:「哈兰德要一头牛,怕饿晕找哈兰德」。

结果让人笑疯了。ViiTorVoice新生成的这几个字,不仅音色跟哈兰德一模一样,还完美保留了他那种低沉的嗓音特质。

前后的呼吸节奏和重音分布做到天衣无缝,新版广告一出,效果绝了。

实测二:姆巴佩的「补水啦」,无缝植入任何正经场景

最近,姆巴佩广告中那句魔性的「补水啦~ 」已经洗脑了无数网友。

那语调、那尾音上扬的「啦~」,堪称2026年度鬼畜区预备役素材。

我们用ViiTorVoice直接把其中的台词替换成「我驾驭未来,补水啦~ 」。

结果非常搞笑,ViiTorVoice生成的「补水啦~」三个字,完美继承了原广告里魔性调调,尾音上扬的程度丝毫不差。

最绝的是,它还被无缝融合进了汽车广告那种低沉稳重的旁白节奏里,前后语句在呼吸气口和背景底噪上,完全看不出拼接痕迹。

另外,网站上还有个「AI会说话的照片」功能。

那就让哈兰德向我们吐露一下心声,为什么在赛场上急得想吃人。

就如本文开头所说,在真实环境中,更耗费时间的往往不是第一次生成,而是后期修改。

比如短剧已经完成配音,上线前发现角色人名需要调整;广告文案临时修改了产品名称;课程内容更新了一个专业术语。

重新生成一句新的配音并不难,真正耗时耗力的,是如何让修改后的内容与原有音频保持一致,尤其在音色、情绪衔接、停顿突兀、时间轴同步这些细节上。

ViiTorVoice推出的片段级编辑能力,就解决了上述难题——你可以任意替换某个词、某句话、某个片段。

从此,内容创作、广告营销、短剧配音、有声书制作等全体语音生产工作流,都被彻底改变!

而且,ViiTor的网站上,还有多种实用功能。

比如这个视频配音功能,让鹦鹉小弟给黑道大哥讲冷笑话,直接给它干崩溃了,语音效果自然逗趣,是网上玩梗的好素材。

下面是一对猫狗在分享对付人类的秘诀,轻松幽默的场景,非常适合替换台词,创作宠物拟人化的搞笑视频。

权威评测领先,多语种语音达到行业先进水平

为什么ViiTorVoice会有如此惊艳的效果?成绩来说话。

就如开头所提,它的基准测试成绩单十分亮眼。

在当前业界最严苛、公认度最高的 TTS 标准评测 Seed-TTS 中,ViiTorVoice 交出了一份惊艳的成绩:英文词错率1.32,中文词错率0.99。

特别值得一提的是,ViiTorVoice 在中文词错率(WER)指标上取得当前公开评测最佳成绩,在发音准确性和语义还原能力方面达到行业领先水平,为实时语音交互、视频配音和Agent场景提供更可靠的语音基础设施。

至此,它全面超越了包括 Qwen3-TTS、CosyVoice3、Fish Audio 等在内的主流竞品。

错词率降到 1.0 以下,就意味着它极度稳定、几乎不存在幻觉。而在如此恐怖的稳定性之上,ViiTorVoice 还带来了市场上任何一家商业化产品都不具备的独门绝技。

语音编辑:哪里不对改哪里

ViiTorVoice 最具颠覆性的核心能力,就是片段级定向编辑。

正如前文所述,行业内现有的 TTS 方案,无论是开源还是闭源,基本范式都是「整段重新生成」。

但 ViiTorVoice 实现了真正的局部修改:你可以指定某一个词、某一个短语进行独立重新生成,而音频的其他所有部分——包括音色、节奏、背景底噪、前后文的情感连贯性,全部保持绝对稳定!

举个直观的例子。

在 ViiTor 官方提供的 Demo 中,一段英文演讲音频,如果你把其中的部分词句改成其他词,重新生成后,那股特有的拖音、演讲时的呼吸节奏、独特的情绪起伏,完全一模一样,只有那个单词被「无缝替换」了。

影视制作、有声书录制、短剧出海,再也不需要因为改了一句台词而重录整集。

这对于影视后期而言,尤其具有革命性意义——因为它第一次将对白调整从「重资产、长周期的补录流程」解放为「非线性时间线上的实时编辑」,让导演的创作意图得以实现。

Scroll for more