谷歌Gemini学会了看图作曲量子位

2/19/2026

刚刚,Gemini摇身一变,成了专业的“唱作人”。

谷歌把最新的Lyria 3模型塞进了Gemini,直接在对话框里招呼一声,Gemini就能现场给你攒个乐团。

这套玩法主打一个有手就行,给它打一段天马行空的文字,或者干脆甩过去一张刚拍的照片,它几秒钟内就能根据你的想法,吐出一首带歌词、旋律甚至人声演唱的完整作品,整个过程快得惊人。

而且还顺便拉来了Nano Banana模型当帮手,曲子刚生成完,一张风格特搭的专辑封面也就跟着出炉了。

总之,从你想出点子到拿到带封面的专属BGM,中间的步骤简化到了极点。

网友评价,48kHz的立体声质量,加上根据照片生成音乐的功能,可见DeepMind这一波非常注重创意工作流程。

你的照片能开口唱歌了

硬指标上,Lyria 3的音频采样率来到了48KHz的高保真级别。这种规格让生成的曲子底气特别足,每一声琴鸣都显得非常扎实,有了这个音质底座,看图唱曲的功能才更有发挥空间。

你随手上传一张在森林徒步的照片,AI就能瞬间捕捉到那种静谧感,转手给你配上一段对味的民谣,让原本静止的风景瞬间有了自己的声音。

这下,你的朋友圈也能拥有专属BGM了。

比如用上面这张图,我让Gemini生成了一段带歌词的音乐,结果它直接输出了带专辑封面的版本。

词穷也没关系,哪怕你只说想要一段“怀旧非洲节拍”,聊聊小时候吃妈妈做的炸芭蕉,它就会自动填满押韵的歌词,生成像“Sweet Like Plantain”这种成品。

它合成的人声非常自然,从一个脑洞到一段带唱腔的短曲,效率高得就像随身带着个词曲制作人。

风格方面你也可以随便折腾。

你可以制作“1970s经典的摩城灵魂乐”,配上华丽的管弦乐和沙哑男高音。

或者整一段“惆怅空灵的Pop Flutter”,让呼吸感极强的女声在雨夜气氛里回荡。哪怕是那种只有跺脚和拍手声的纯人声“大海航行小曲”,它也能在几秒钟内吐出质感独特的音频。

它还顺便拉来了Nano Banana模型搞封面设计,每首歌写完,一张风格特别搭的专属专辑封面也就跟着出来了,可谓是把复杂的创作流程简化到了极点。

另外,用它进行跨语言创作也没门槛,Lyria 3首发支持了韩语、日语、德语等八种语言。你哪怕不识日文韩文,也能弄出时髦的“K-pop”或者日系小清新。

All in!谷歌要做“超级入口”

谷歌现在的算盘打得很直白,它就是要搞All In,要把Gemini彻底养成一个包揽所有数字生活的超级入口。

产品层面,谷歌已经打通了网盘、相册、YouTube等等这些自家的核心资产;模态层面,Lyria 3的出现也让Gemini APP的模态拼图变得更加完整。

这种深度绑定,让创作过程完全不需要在各种APP之间跳来跳去,最精明的地方在于它让功能不再是孤岛,通过全场景的覆盖在用户面前筑起了一道无形的壁垒。

既然一个入口就能解决文案、图像、音乐甚至通过YouTube分发的所有需求,用户自然也就失去了折腾独立应用的动力。

对大多数追求效率的普通人来说,这种伸手即得的便捷性才是真正的杀手锏,当原本需要跳转的功能变成了超级应用里的内置组件,单一工具难免会显得步骤繁琐。

谷歌的野心,正是通过这种全能布局,不断加固这个“超级入口”的地位。

Scroll for more