谷歌这次真有点吓人了差评
要说 AI 圈最不缺的,可能就是 Demo 战神。宣传片隔三岔五炸裂,实际真上手各有各的拉。
但世超这还是第一次,看到买家秀比卖家秀还震撼的世界模型。。。
没错,我说的就是谷歌最新推出的 Project Genie。
Project Genie 推出即爆火,谷歌 DeepMind 官推十二小时狂卷四千多转发,近两万赞,一万收藏。
有老哥趁机内涵 R 星,有了 Project Genie,“ 我们将能够在 GTA6 正式发布之前完成 GTA6 的开发。”
还有更夸张点的哥们儿,直接把 Project Genie 和 GPT-2 相提并论。GPT-2 之于 AI 界是什么地位,大伙儿懂得都懂。
其实 Project Genie 的底层模型不是新东西,接的是去年 8 月谷歌发布的世界模型 Genie 3。
不过这回,Project Genie 把 Genie 3 和 Nano Banana Pro 揉在一起,来了一波可玩性大升级。
Genie 3 官方示例
有些差友可能不太了解世界模型,这东西和视频模型不一样,它的目标不是生成一段视频,而是搭建一个能探索交互的,无限生成的物理世界。大伙儿可以把它想象成我的世界无边界版。
根据谷歌的官方博客,Project Genie 的功能主要分成三大部分:世界草图、世界探索和世界再合成。
简单来说,世界草图指输入场景提示词和角色提示词,Nano Banana Pro 负责画面草图生成,先给你看看视觉效果满不满意,你想用第一视角还是第三视角;再交给 Genie 3 实时生成可探索的物理世界,这就是世界探索;最后,世界再合成让我们可以基于已有提示词,继续修改世界的样子。
不像以前只有几个 Demo 案例能用,现在直接实现人人按需定制。
比如在官方的示例中,场景提示词输入 “ 一个有很多珊瑚的海底世界 ”,角色描述是 “ 一只金鱼 ”,下面是返回的结果:
或者随手拍一张生活照片,瞬间能动起来,这效果,你就说有没有双人成行那味儿吧。
甚至可以随时中断退出原世界,只换角色,只换背景都可以,一致性强,操作自由度也相当高。
至少从官方案例来看,不只画面精细度提升了不少,以前世界模型场景崩崩崩、操作掉帧卡顿的老毛病也改掉了。
当然,看完官方案例肯定也有差友觉得,就这?感觉跟以前没啥本质区别啊? 还是 WASD 逛街,研究这玩意儿到底有啥意义?
那如果。。。大伙儿私底下的测试效果是这样呢?
注意烟盒和纸屑的碰撞


