ImageNet之后，李飞飞再出手量子位

ImageNet之后，李飞飞再出手！

李飞飞团队最新发布ESI-Bench——一个专门用来评测具身空间智能的新基准。

过去的空间智能评测默认给模型最优观测，而ESI-Bench第一个把观察者变成行动者，闭合了感知-行动回路。

它为具身空间智能领域提供了一个系统性的评测框架，覆盖人类核心空间认知能力的四大维度。

论文的核心结论是：

现在的AI看图很厉害，但离「会动、会摸、会主动找答案」的空间智能还差得远。

ESI-Bench是什么

ESI-Bench发布的背景，是由于目前的空间智能benchmark，测的都是「被动感知」。

把一张或几张图片扔给模型，问「A物体在B物体的左边还是右边」「这个杯子能装多少水」「抽屉里有没有东西」，这样的题目测出来的是模型的视力，而非空间推理能力。

反观人类是怎么做的？人类会站起来绕到物体背后去看，会把抽屉拉开，会把水倒出来量一量。

这就是ESI-Bench的核心立场：

把观察者变成行动者。

现实世界里，智能体必须像人类一样，主动决定行动、获取证据，再基于新观测做下一步判断。团队把它称为「感知-行动回路」（Perception-Action Loop）。

ESI-Bench就是这样一套超越现有基准的空间智能新评测基准，它包含10个任务类别，29个子类别，3081个任务实例，全部在OmniGibson仿真平台上构建，场景素材来自BEHAVIOR-1K场景库。

所有任务围绕Spelke的四大核心知识系统设计，也就是人类婴儿天生就具备的空间直觉：物体表征、布局与几何、数量表征、目标导向行动。

它的关键设定在于行动强制。每一道题，AI智能体必须主动行动才能拿到足够信息作答。模型不能坐在原地等图片，它要决定往哪走、看什么、拿什么、怎么操作。

举几个具体的例子：

比如评测中有一道「刚性容纳」题：给定几个容器和几个物体，要求把物体全部装进去。有的容器开口小、有的内部有隔板、有的盖子需要掀开才能看到真实容量。

模型必须走近、俯身、甚至把容器拿起来从底部观察，才能判断能不能装得下。

还有「液体体积」题：两个杯子，从外观看不出容量差异，模型需要把水倒进去测试，或者直接拿起来掂量。

这么一说，大家应该也能直观感受到这套评测基准的设计理念：

正确答案不在任何单张图片里，智能体必须主动行动并推理出正确结果。

团队特别指出，与此前工作相比，ESI-Bench在三个地方有所超越：

从空间感知到空间能力：在这里，智能体不仅根据他们能感知到什么来评估，还根据他们是否知道部署哪些具体能力来解决空间任务来评估；

选择性感知：智能体必须确定哪些观察值得获取，优先考虑与任务相关的信息而不是冗余或无信息的输入；

解决感知歧义：智能体必须通过误导性观察进行推理，以推断隐藏的空间结构和超越直接观察的潜在物理约束。

测完发现了啥？3个核心结论

团队拿当前最强的多模态大模型做了全面测试，包括GPT-5和Gemini系列。

这是最主要的实验结果图，包含了ESI-Bench在被动感知、主动探索、Oracle三种范式下的各项任务准确率，涵盖2D+VLM、3D+LLM及人类基线。

核心结论有3个。

第一，感知不是瓶颈，行动才是。

好消息是，主动探索确实有效。在没有额外指令的情况下，智能体自发涌现出多种空间策略。

比如绕到物体背后观察（move-behind）、切换俯视角度（top-down）、把物体拿起来（pick-up）、把水倒出来验证（pour-out）。

Gemini 3.1在「部分遮挡」任务上，如果给到最佳观察视角，准确率从14.6%暴涨到95.1%。