微软发布三款自研AI模型华尔街日报

4/3/2026

昨日微软一口气发布三款自研AI模型:MAI-Transcribe-1、MAI-Voice-1和MAI-Image-2,分别覆盖语音转写、语音生成与图像生成三大高频应用场景。

有外媒评论,此举标志着微软正在自建AI技术体系,以降低对OpenAI的依赖。

官方博客显示,MAI-Transcribe-1批量转录速度是现有Microsoft Azure Fast产品的2.5倍,在FLEURS基准测试中平均词错误率最低;MAI-Voice-1则可在仅需1秒即可生成60秒的音频;MAI-Image-2的图像生成速度至少提升了2倍。

在我们的实测中,三款模型表现各异:MAI-Transcribe-1在一倍速下转写准确,但二倍速播放《无间道》天台对峙片段时,将“我也读过警校,你们这些卧底真有意思”误识为“我也读过剑桥,你们学会计真有意思”;面对《寒战》中节奏更快、情绪更激烈的争吵片段,甚至出现完全无响应的“宕机”现象。

MAI-Voice-1则能生成风格迥异的语音:英式版本低沉有韵律,呈现莎士比亚式舞台感;美式版本轻快明亮,细节甚至包括人说话时的口水声,逼真感强。MAI-Image-2在官方示例中自然景观渲染表现在线,但在实测中面对复杂指令时仍有局限。

语音转录实测:中文结果无标点,把二倍速无间道对峙转成“剑桥会计”

MAI-Transcribe-1是语音转文本模型,微软称其在FLEURS基准测试中,针对微软产品使用率最高的25种语言,实现了最低的平均词错误率。

此外,微软还称该模型在这些语言中的表现优于OpenAI的 Whisper-large-v3,并在其余大多数基准测试语言中胜过谷歌的Gemini 3.1 Flash。微软表示,其批量转录速度较现有的Azure产品有了显著提升。通过Foundry平台进行转录的起价为每小时0.36美元。

实测中,我们选取了电影《无间道》中刘德华与梁朝伟天台对峙的经典桥段,分别以一倍速与二倍速输入MAI-Transcribe-1。

▲电影《无间道》天台对峙名场面

一倍速播放测试环节,这款工具的表现算得上中规中矩:整段天台对白的文字转录零误差,但美中不足的是,输出文本完全没有标点断句,读起来更像一长串毫无停顿的文字流,少了原片里的对话节奏感。

▲MAI-Transcribe-1正常速度语音转录结果

换句话说,它已经具备“听得准”的能力,但至少对于中文普通话来说,距离“直接可用”的字幕级体验,仍需要依赖后期人工整理来补足。

紧接着,当我们把播放速度调到二倍速,戏剧性的一幕出现了。

▲MAI-Transcribe-1二倍速语音转录结果

原句里的“我也读过警校,你们这些卧底真有意思”,居然被“魔改”成了“我也读过剑桥,你们学会计真有意思”。

“警校”变“剑桥”,“卧底”成“会计”,语义发生整体偏移,甚至重构了场景语境。

最后,我们进一步加码测试,播放了电影《寒战》中节奏更快、情绪更激烈的经典争执片段。结果是,MAI-Transcribe-1几乎“当场宕机”,未能给出有效转录输出,稳定性出现明显下降。

▲MAI-Transcribe-1寒战吵架名场面转录结果

一轮测试下来不难看出,MAI-Transcribe-1在常规语速下的转录准确性基本在线,但面对倍速播放、激烈争吵这类复杂语音场景,短板就暴露无遗了。尤其是在发音相近词汇的精准区分、语速加快后的语义连贯性判断,以及强情绪语音的识别适配等方面,都还有不小的优化空间。

语音生成实测:能模拟出说话时的口水声

根据微软官方博客信息,MAI-Voice-1是一款高效语音生成模型,可在单块GPU上于1秒内生成1分钟音频。该模型能够在长篇内容中保持说话人的身份。微软通过Foundry平台以每百万字符22美元的价格出售该技术。

鉴于目前只支持英语,实测环节中,我们选取了莎士比亚的经典诗歌Sonnet 18(十四行诗第18首)作为测试文本,输入至MAI-Voice-1,并分别生成“莎士比亚风格的英式口音版本”与“喜悦语气的美式口音版本”,以观察其在情绪建模与语音细节控制上的差异。

从结果来看,两种风格呈现出较为明显的分化。莎士比亚式的英音版本整体语速更缓,音频时长明显变长,音色趋于低沉,在句间与词间插入了更多停顿与换气声,形成类似舞台朗诵的节奏感。MAI-Voice-1对停顿、重音的调度,使得语音具备一定的情绪张力,接近人类在朗诵时的自然状态。

相比之下,喜悦语气的美音版本则更偏向轻快与流动,语速提升,语调上扬,整体听感更为明亮。在细节层面,可以感受到类似“口水声”等生理性噪音,这类细节一方面说明模型在尝试模拟更真实的发声环境,包括口腔湿润度、气流摩擦等微观特征。

图片生成:能体现空间纵深感

MAI-Image-2现已通过Foundry平台与其他两款模型一同面向大众市场。在Arena.ai的文本转图像排行榜上,它位列第三,仅次于谷歌的Nano Banana 2和OpenAI的GPT-Image 1.5。

Scroll for more