中国AI音乐,悄悄把全球第一拿走了量子位

3/25/2026

中国AI音乐,悄悄把全球第一拿走了——

昆仑万维Mureka V8,最新登顶Artificial Analysis音乐模型榜,一举超越Suno V4.5、Udio v1.5 Allegro等国际主流模型。

而且还是人声(vocal)、器乐(instrument)双料第一那种。

那么问题来了,这个新鲜出炉的“双料第一”到底有多能打?

咱直接实测说话。

人声、器乐双实测

先看最直观的人声。

这块儿我们先给出了一个极简提示词,不加复杂的结构和参数,就看Mureka V8最原始的理解和生成能力:

晚风民谣,温柔女声,黄昏乡间的慢时光。

怎么说?AI唱歌是不是太有真人感了!!

吐字清晰咱就不提了,关键在细节。

第四句开头能听到一个明显的换气声,再往后,几处歌词结尾也明显能听出气息的上扬or下落处理。

这种呼吸起伏恰到好处地在曲子里穿插衔接,非常自然,而不是那种生硬堆砌。

还有温柔这个标签,不只是贴在声音上,在段落的推进上也贯穿始终。

主歌更克制、更贴耳、气息更轻;副歌才稍微把声带打开,情绪抬起来,不过这种情绪依然是收着的,没有用力过猛。

木吉他带入,人声一出,田间、黄昏、晚风……这惬意感简直扑面而来。

听完民谣,我们又甩给Mureka V8一个极其刁钻的指令。

“曲风要Pop Rock和R&B混着来,节奏要卡死在72BPM的慢板,人声还得在几个段落里来回切换:

第一段气声唱法是那种沙沙的、带点破碎感的声音;

副歌直接切摇滚嗓,带嘶吼的那种;

间奏再来一段R&B转音,最后用假声慢慢收尾。”

没想到这反复横跳的刁钻需求,还真被Mureka V8给跑出来了,听上去完成得不错(doge)。

几种状态截然不同的丝滑转声,中间切换还不断档、不卡顿。

好吧我承认V8你的唱商在我之上……

再让AI试试玩乐器。

一提到乐器,英式摇滚乐队The Kinks的《You Really Got Me》简直不要太出名——

这首歌的前奏,是一段1960年代最具标志性的失真吉他riff。

所谓riff就是一段简短、重复、极具辨识度的乐器乐句,通常是吉他或贝斯演奏,构成整首歌的记忆点。

而Mureka V8在学到这种技巧后,为我们生成了一首纯器乐演奏曲《Got Me Going》:

就问有谁不想边听边摇头抖腿呢(笑.jpg)。

开头的riff味道非常正,一下子就把记忆点拉满,然后整个器乐编排也十分有画面感——

一听就知道人已经坐在酒馆或Livehouse台下了,而此时台上正有一支帅气逼人的乐队在演奏,还是边演边跳舞那种。

u1s1,AI生成的器乐演奏如今能到这个水平,确实给了人很大惊喜。

听完之后,你会很明显感受到它对不同乐器特性、歌曲意境的理解等,都往前迈出了一大步。

而当这种器乐演奏能力和人声能力相结合之后,Mureka V8曾被反复提及的一点,也愈发清晰——

它所生成的,已经不再是一段“AI音频片段”,而是一首结构完整、情感连贯、制作精良的“歌”。

换句话说,它知道什么时候该唱、情绪怎么推进、用什么乐器以及该怎么用。

这种近乎专业音乐人的创作能力,让它真正跨越了一条从“可生成”到“可直接发布”的线。

因为懂音乐,所以可以直接生成“歌”。

而能够生成一首完整的“歌”,则意味着普通人无需专业训练也能拥有属于自己的作品——

人人都能参与创作发表的时代,真的来了。

至此,靠着“双料第一”实力打底的Mureka V8,也把AI音乐直接卷到了新的高度。

三个月一更,昆仑万维太卷了

不过实测一圈下来,我就想知道:它这股子暴力进化感是咋做到的?

答案大概藏在那条密密麻麻的时间线里——

昆仑万维这家公司在AI音乐的赛道上简直卷疯了。

2024年2月SkyMusic 1.0内测起步,到了2026年1月,Mureka V8正式发布,满打满算不到两年时间,硬生生迭代了8个大版本。

什么概念?平均三个月一更?!

能这么玩,到底是在烧钱还是真憋着一口气要把这事儿干成?

从结果来看,昆仑万维应该是后者。

回看Mureka这不到两年的进化史,其实就是一个把“AI音乐好听”从玄学变成可量化、可复现的工业化生产能力的迭代过程。

第一阶段是从不能用到能用。

SkyMusic 1.0当时还只是个能跑通的内测版本,那时候团队就盯着一件事,先把端到端“能用”这件事做出来,跑通训练到评测的基础闭环。

Scroll for more