谷歌Gemini学会了看图作曲量子位

刚刚，Gemini摇身一变，成了专业的“唱作人”。

谷歌把最新的Lyria 3模型塞进了Gemini，直接在对话框里招呼一声，Gemini就能现场给你攒个乐团。

这套玩法主打一个有手就行，给它打一段天马行空的文字，或者干脆甩过去一张刚拍的照片，它几秒钟内就能根据你的想法，吐出一首带歌词、旋律甚至人声演唱的完整作品，整个过程快得惊人。

而且还顺便拉来了Nano Banana模型当帮手，曲子刚生成完，一张风格特搭的专辑封面也就跟着出炉了。

总之，从你想出点子到拿到带封面的专属BGM，中间的步骤简化到了极点。

网友评价，48kHz的立体声质量，加上根据照片生成音乐的功能，可见DeepMind这一波非常注重创意工作流程。

你的照片能开口唱歌了

硬指标上，Lyria 3的音频采样率来到了48KHz的高保真级别。这种规格让生成的曲子底气特别足，每一声琴鸣都显得非常扎实，有了这个音质底座，看图唱曲的功能才更有发挥空间。

你随手上传一张在森林徒步的照片，AI就能瞬间捕捉到那种静谧感，转手给你配上一段对味的民谣，让原本静止的风景瞬间有了自己的声音。

这下，你的朋友圈也能拥有专属BGM了。

比如用上面这张图，我让Gemini生成了一段带歌词的音乐，结果它直接输出了带专辑封面的版本。

词穷也没关系，哪怕你只说想要一段“怀旧非洲节拍”，聊聊小时候吃妈妈做的炸芭蕉，它就会自动填满押韵的歌词，生成像“Sweet Like Plantain”这种成品。

它合成的人声非常自然，从一个脑洞到一段带唱腔的短曲，效率高得就像随身带着个词曲制作人。

风格方面你也可以随便折腾。

你可以制作“1970s经典的摩城灵魂乐”，配上华丽的管弦乐和沙哑男高音。

或者整一段“惆怅空灵的Pop Flutter”，让呼吸感极强的女声在雨夜气氛里回荡。哪怕是那种只有跺脚和拍手声的纯人声“大海航行小曲”，它也能在几秒钟内吐出质感独特的音频。

它还顺便拉来了Nano Banana模型搞封面设计，每首歌写完，一张风格特别搭的专属专辑封面也就跟着出来了，可谓是把复杂的创作流程简化到了极点。

另外，用它进行跨语言创作也没门槛，Lyria 3首发支持了韩语、日语、德语等八种语言。你哪怕不识日文韩文，也能弄出时髦的“K-pop”或者日系小清新。

All in！谷歌要做“超级入口”

谷歌现在的算盘打得很直白，它就是要搞All In，要把Gemini彻底养成一个包揽所有数字生活的超级入口。

产品层面，谷歌已经打通了网盘、相册、YouTube等等这些自家的核心资产；模态层面，Lyria 3的出现也让Gemini APP的模态拼图变得更加完整。

这种深度绑定，让创作过程完全不需要在各种APP之间跳来跳去，最精明的地方在于它让功能不再是孤岛，通过全场景的覆盖在用户面前筑起了一道无形的壁垒。

既然一个入口就能解决文案、图像、音乐甚至通过YouTube分发的所有需求，用户自然也就失去了折腾独立应用的动力。

对大多数追求效率的普通人来说，这种伸手即得的便捷性才是真正的杀手锏，当原本需要跳转的功能变成了超级应用里的内置组件，单一工具难免会显得步骤繁琐。

谷歌的野心，正是通过这种全能布局，不断加固这个“超级入口”的地位。