中国AI音乐，悄悄把全球第一拿走了量子位

中国AI音乐，悄悄把全球第一拿走了——

昆仑万维Mureka V8，最新登顶Artificial Analysis音乐模型榜，一举超越Suno V4.5、Udio v1.5 Allegro等国际主流模型。

而且还是人声（vocal）、器乐（instrument）双料第一那种。

那么问题来了，这个新鲜出炉的“双料第一”到底有多能打？

咱直接实测说话。

人声、器乐双实测

先看最直观的人声。

这块儿我们先给出了一个极简提示词，不加复杂的结构和参数，就看Mureka V8最原始的理解和生成能力：

晚风民谣，温柔女声，黄昏乡间的慢时光。

怎么说？AI唱歌是不是太有真人感了！！

吐字清晰咱就不提了，关键在细节。

第四句开头能听到一个明显的换气声，再往后，几处歌词结尾也明显能听出气息的上扬or下落处理。

这种呼吸起伏恰到好处地在曲子里穿插衔接，非常自然，而不是那种生硬堆砌。

还有温柔这个标签，不只是贴在声音上，在段落的推进上也贯穿始终。

主歌更克制、更贴耳、气息更轻；副歌才稍微把声带打开，情绪抬起来，不过这种情绪依然是收着的，没有用力过猛。

木吉他带入，人声一出，田间、黄昏、晚风……这惬意感简直扑面而来。

听完民谣，我们又甩给Mureka V8一个极其刁钻的指令。

“曲风要Pop Rock和R&B混着来，节奏要卡死在72BPM的慢板，人声还得在几个段落里来回切换：

第一段气声唱法是那种沙沙的、带点破碎感的声音；

副歌直接切摇滚嗓，带嘶吼的那种；

间奏再来一段R&B转音，最后用假声慢慢收尾。”

没想到这反复横跳的刁钻需求，还真被Mureka V8给跑出来了，听上去完成得不错（doge）。

几种状态截然不同的丝滑转声，中间切换还不断档、不卡顿。

好吧我承认V8你的唱商在我之上……

再让AI试试玩乐器。

一提到乐器，英式摇滚乐队The Kinks的《You Really Got Me》简直不要太出名——

这首歌的前奏，是一段1960年代最具标志性的失真吉他riff。

所谓riff就是一段简短、重复、极具辨识度的乐器乐句，通常是吉他或贝斯演奏，构成整首歌的记忆点。

而Mureka V8在学到这种技巧后，为我们生成了一首纯器乐演奏曲《Got Me Going》：

就问有谁不想边听边摇头抖腿呢（笑.jpg）。

开头的riff味道非常正，一下子就把记忆点拉满，然后整个器乐编排也十分有画面感——

一听就知道人已经坐在酒馆或Livehouse台下了，而此时台上正有一支帅气逼人的乐队在演奏，还是边演边跳舞那种。

u1s1，AI生成的器乐演奏如今能到这个水平，确实给了人很大惊喜。

听完之后，你会很明显感受到它对不同乐器特性、歌曲意境的理解等，都往前迈出了一大步。

而当这种器乐演奏能力和人声能力相结合之后，Mureka V8曾被反复提及的一点，也愈发清晰——

它所生成的，已经不再是一段“AI音频片段”，而是一首结构完整、情感连贯、制作精良的“歌”。

换句话说，它知道什么时候该唱、情绪怎么推进、用什么乐器以及该怎么用。

这种近乎专业音乐人的创作能力，让它真正跨越了一条从“可生成”到“可直接发布”的线。

因为懂音乐，所以可以直接生成“歌”。

而能够生成一首完整的“歌”，则意味着普通人无需专业训练也能拥有属于自己的作品——

人人都能参与创作发表的时代，真的来了。

至此，靠着“双料第一”实力打底的Mureka V8，也把AI音乐直接卷到了新的高度。

三个月一更，昆仑万维太卷了

不过实测一圈下来，我就想知道：它这股子暴力进化感是咋做到的？

答案大概藏在那条密密麻麻的时间线里——

昆仑万维这家公司在AI音乐的赛道上简直卷疯了。

2024年2月SkyMusic 1.0内测起步，到了2026年1月，Mureka V8正式发布，满打满算不到两年时间，硬生生迭代了8个大版本。

什么概念？平均三个月一更？！

能这么玩，到底是在烧钱还是真憋着一口气要把这事儿干成？

从结果来看，昆仑万维应该是后者。

回看Mureka这不到两年的进化史，其实就是一个把“AI音乐好听”从玄学变成可量化、可复现的工业化生产能力的迭代过程。

第一阶段是从不能用到能用。

SkyMusic 1.0当时还只是个能跑通的内测版本，那时候团队就盯着一件事，先把端到端“能用”这件事做出来，跑通训练到评测的基础闭环。