这么哇塞的世界模型,竟是开源量子位
整整三天,一波接一波连续开源。
在机器人的眼睛(LingBot-Depth)和机器人的大脑(LingBot-VLA)之后,刚刚,蚂蚁灵波又开源了一个大的:
通用的世界模型——LingBot-World。
是可以支持在10分钟时长里,一直生成、一直交互的那种,来感受一下这个feel:
不难看出,视觉效果已经做到了与DeepMind推出的Genie 3不相上下,但时间维度上明显是更长。
而且LingBot-World生成的视频不只是能看,你也可以深度参与其中。
你可以通过键盘(WASD)和鼠标,实时控制视角的推进、旋转,就像在玩一款3A大作一样:
当然,Agent也能够在生成的世界中自主规划并执行动作。
与此同时,你也可以用自然语言的方式去实时改变生成世界里的一切。
例如我们“喂”给LingBot-World这样一张初始图:
只需输入“前面放个烟花”(0-10s)、“变成冰雪世界”(10-20s),LingBot-World就会从这张图开始按照你的要求生成下去:
言出法随,真·言出法随。
不仅如此,LingBot-World一致性这块也是拿捏的非常到位,例如下面的科幻场景,不论是远景还是近景,那个光圈始终保持高度的一致性:
除了一致性之外,记忆力这块也是值得说道说道。
即便画面已经离开了视频中的猫咪一段时间,但当镜头转回来,LingBot-World还能保持持续的记忆,并推断猫咪在屏外的行为。
就仿佛一切都在自然演进、发生一样:
并且LingBot-World还严格遵循现实世界的物理规律,同样是这只猫咪,当它撞到沙发的时候就不会出现穿模的情况,会显得更加真实:
如此效果,也难怪刚刚发布,就已经在国内外的网上掀起了不小的热议:
真正的突破不在于视觉。而是它将记忆力、交互和持续性整合到了一起。
但最最最关键的是,不同于Genie 3的闭源,LingBot-World选择的是完全开源!
这也成了网友们直呼“Amazing”的重点:
对开源社区来说是个巨大的胜利。
如此开源对具身智能来说是个巨大进步。
那么LingBot-World到底是如何做到的呢?


