首个可编辑AI语音来了新智元

全球第一！中国AI语音ViiTorVoice首创「局部编辑」神技：配音错字告别重录，像改Word一样修语音。内附姆巴佩、哈兰德爆笑实测，快来见证！

中国AI，登顶全球第一！

最近，在全球语音权威评测榜单 Seed-TTS 上，突然杀出了一匹令人胆寒的黑马。

它就是ViiTorVoice 。

这个凭空出世的中国模型，将 Qwen3-TTS、CosyVoice3、Fish Audio 等一众主流巨头挑落马下，径直登顶综合排名第一！

凭借英文词错率（WER）1.32、中文词错率0.99的恐怖数据，它一举击穿了行业的极限天花板，成为当前评测体系中，全球首个中文词错率突破 1.0 大关的里程碑模型。

这个登上榜首的AI语音大模型ViiTorVoice，来自国产公司云上曲率。它终结了长久以来的行业痛点：语音无法局部编辑。

这个全球首个具备「局部编辑」能力的AI，将彻底改变了整个行业！

Hugging Face Demo： https://huggingface.co/spaces/ZzWater/ViiTorVoice

GitHub： https://github.com/viitor-ai/viitor-voice-nar

模型权重： https://huggingface.co/ZzWater/ViiTorVoice-NAR

实测：怕饿晕找哈兰德

所以，ViiTorVoice的上手效果究竟如何？

我们用它做了一些实测，看看它到底能不能扛住整活界的考验。

实测一：哈兰德的最新梗——挪威队伙食不够了

昨天，全网都被这条新闻笑喷了。

挪威队参加世界杯，带了3名主厨去美国，还从本国空运食材，就为了喂饱哈兰德。网友热评：哈兰德一个人吃掉了挪威队的伙食预算。

我们立刻整活，找来最近哈兰德最火的广告，用ViiTorVoice把原广告词变成了：「哈兰德要一头牛，怕饿晕找哈兰德」。

结果让人笑疯了。ViiTorVoice新生成的这几个字，不仅音色跟哈兰德一模一样，还完美保留了他那种低沉的嗓音特质。

前后的呼吸节奏和重音分布做到天衣无缝，新版广告一出，效果绝了。

实测二：姆巴佩的「补水啦」，无缝植入任何正经场景

最近，姆巴佩广告中那句魔性的「补水啦~ 」已经洗脑了无数网友。

那语调、那尾音上扬的「啦~」，堪称2026年度鬼畜区预备役素材。

我们用ViiTorVoice直接把其中的台词替换成「我驾驭未来，补水啦~ 」。

结果非常搞笑，ViiTorVoice生成的「补水啦~」三个字，完美继承了原广告里魔性调调，尾音上扬的程度丝毫不差。

最绝的是，它还被无缝融合进了汽车广告那种低沉稳重的旁白节奏里，前后语句在呼吸气口和背景底噪上，完全看不出拼接痕迹。

另外，网站上还有个「AI会说话的照片」功能。

那就让哈兰德向我们吐露一下心声，为什么在赛场上急得想吃人。

就如本文开头所说，在真实环境中，更耗费时间的往往不是第一次生成，而是后期修改。

比如短剧已经完成配音，上线前发现角色人名需要调整；广告文案临时修改了产品名称；课程内容更新了一个专业术语。

重新生成一句新的配音并不难，真正耗时耗力的，是如何让修改后的内容与原有音频保持一致，尤其在音色、情绪衔接、停顿突兀、时间轴同步这些细节上。

ViiTorVoice推出的片段级编辑能力，就解决了上述难题——你可以任意替换某个词、某句话、某个片段。

从此，内容创作、广告营销、短剧配音、有声书制作等全体语音生产工作流，都被彻底改变！

而且，ViiTor的网站上，还有多种实用功能。

比如这个视频配音功能，让鹦鹉小弟给黑道大哥讲冷笑话，直接给它干崩溃了，语音效果自然逗趣，是网上玩梗的好素材。

下面是一对猫狗在分享对付人类的秘诀，轻松幽默的场景，非常适合替换台词，创作宠物拟人化的搞笑视频。

权威评测领先，多语种语音达到行业先进水平

为什么ViiTorVoice会有如此惊艳的效果？成绩来说话。

就如开头所提，它的基准测试成绩单十分亮眼。

在当前业界最严苛、公认度最高的 TTS 标准评测 Seed-TTS 中，ViiTorVoice 交出了一份惊艳的成绩：英文词错率1.32，中文词错率0.99。

特别值得一提的是，ViiTorVoice 在中文词错率（WER）指标上取得当前公开评测最佳成绩，在发音准确性和语义还原能力方面达到行业领先水平，为实时语音交互、视频配音和Agent场景提供更可靠的语音基础设施。

至此，它全面超越了包括 Qwen3-TTS、CosyVoice3、Fish Audio 等在内的主流竞品。

错词率降到 1.0 以下，就意味着它极度稳定、几乎不存在幻觉。而在如此恐怖的稳定性之上，ViiTorVoice 还带来了市场上任何一家商业化产品都不具备的独门绝技。

语音编辑：哪里不对改哪里

ViiTorVoice 最具颠覆性的核心能力，就是片段级定向编辑。

正如前文所述，行业内现有的 TTS 方案，无论是开源还是闭源，基本范式都是「整段重新生成」。

但 ViiTorVoice 实现了真正的局部修改：你可以指定某一个词、某一个短语进行独立重新生成，而音频的其他所有部分——包括音色、节奏、背景底噪、前后文的情感连贯性，全部保持绝对稳定！

举个直观的例子。

在 ViiTor 官方提供的 Demo 中，一段英文演讲音频，如果你把其中的部分词句改成其他词，重新生成后，那股特有的拖音、演讲时的呼吸节奏、独特的情绪起伏，完全一模一样，只有那个单词被「无缝替换」了。

影视制作、有声书录制、短剧出海，再也不需要因为改了一句台词而重录整集。

这对于影视后期而言，尤其具有革命性意义——因为它第一次将对白调整从「重资产、长周期的补录流程」解放为「非线性时间线上的实时编辑」，让导演的创作意图得以实现。