港大阿里联手开源:一句话全搞定量子位
机器人模型已经能根据 “把杯子放进篮子” 这类指令完成任务,但用哪只手?从哪个方向抓?抓杯身还是杯柄?—— 这些决定执行效果的关键细节,现有机器人数据集较少标注。
近日,来自香港大学 XLANG Lab 和阿里巴巴 Qwen 团队的研究人员提出了 FineVLA,一个面向可控 VLA 策略的开源框架。该框架让 VLA 模型不仅能完成任务,还能按照人类指定的方式完成任务 —— 用哪只手、从哪个角度接近、接触物体的哪个部位,都可以通过语言进行控制。其最佳混合策略设置在 RoboTwin 仿真中达到 86.8%/82.5% 的成功率(比基线提升 + 15.0/+11.1),在真实双臂机器人上达到 62.7/100(Raw-only 为 49.9),姿态(+23)、颜色(+18)、接近方向(+18)等可控因素均有提升,代码、模型和评测基准均已开源。
背景:VLA 模型为什么还不够” 听话”?
VLA(Vision-Language-Action)模型已能根据自然语言完成抓取、放置等操作,但一个长期痛点仍然存在:语言监督粒度太粗。在图像生成和视频生成中,文字描述的细节会直接影响结果可控性;机器人策略学习也类似,只是语言需要约束真实动作过程。同样是把勺子拿起来,不同轨迹可能用左臂或右臂、绕过障碍物或直线移动,但在数据集中往往共享同一条目标级指令。这会带来监督歧义:模型能学到 “最终要成功”,却难以从语言中学到使用哪只手、从哪个方向接近、接触物体哪个部位等执行约束,目前多数机器人数据集仍缺少这种细粒度标注。
构建可控 VLA 系统面临三个核心挑战:缺乏从异构数据到细粒度标注的基础设施;缺乏评测机器人细粒度理解的基准和可扩展低成本标注器;缺乏细粒度语言是否真的提升策略学习的系统性证据,FineVLA 框架逐一解决这三个问题。
FineVLA 构建了一个动作 - 指令对齐的完整闭环,连接细粒度数据构建、机器人视频理解、可扩展标注和可控 VLA 策略学习。
左侧:FineVLA-Tool 从 10 个开源数据集统一异构机器人轨迹,通过聚类采样去除冗余演示,并沿十个细粒度维度为代表性轨迹标注动作对齐描述。生成的 FineVLA-Data 支持 RoboFine-Bench(通过 Grounding VQA、ReasoningVQA 和 Caption 评测衡量细粒度机器人视频理解)和 RoboFine-VLM(面向机器人的专用 VLM 标注器)。
右侧:FineVLA-Policy 使用原始目标级指令与细粒度过程级指令的混合数据,在两种动作解码架构下训练,并在 RoboTwin 仿真和真实双臂操作中评测。可控控制示例展示了细粒度语言如何指定接触区域、目标物体、执行臂、轨迹方向和失败恢复等执行敏感因素。
FineVLA 由四个核心组件构成,形成” 数据 — 模型 — 评测 — 策略” 的完整闭环。
FineVLA-Tool:97 万条轨迹到细粒度数据
FineVLA-Tool 通过四个阶段将异构机器人数据转化为高质量细粒度监督:
阶段一,格式统一:从 Bridge V2、BC-Z、RT-1、RoboMIND 等 10 个开源数据集汇总 972247 条轨迹,统一转换为 LeRobot2.1 格式。
阶段二,动作规范化:将不同数据集各异的时间参考和运动学表示统一为绝对坐标 + 归一化四元数旋转,移除动作和状态差距过大的损坏轨迹。
阶段三,DTW 聚类去重:基于动态时间规整(DTW)计算动作轨迹相似度并层次聚类,从 97 万条中筛选出 47159 条代表性样本,保留操作策略多样性。
阶段四,十维细粒度标注:按动作序列、执行体(左 / 右臂)、目标物体、接触与接近方式、轨迹方向、失败恢复等 10 个维度标注,先由 Qwen3.5-Plus 生成,再经人工审核验证,标注后平均词数从 9.3 增至 96.8(10.4 倍)。
RoboFine-VLM:让 VLM 学会描述机器人” 怎么动”
通用 VLM 常漏掉物体歧义区分、接触区域、运动路径等执行细节。研究人员进一步对 Qwen3.5-VL-397B-A17B 进行全参数监督微调,并基于前述人工验证的细粒度指令得到 RoboFine-VLM,能输出覆盖 10 个控制维度的步骤级动作描述,作为未来数据扩展的可扩展标注器。
RoboFine-Bench:评测细粒度动作理解
RoboFine-Bench 包含 500 段视频、32 种机器人形态和 11631 个原子事实,与训练集严格不重叠,设有两个轨道:
VQA 轨道:包含 1030 道问题,沿标注的十个细粒度维度分布,汇聚为三个评测轴 —— 实体与场景定位(Grounding)、动作与运动理解(Action)、交互与状态推理(State)。模型接收视频帧和全部问题,答案通过确定性匹配评分。
Caption 轨道:要求模型生成动作对齐的步骤级细粒度描述,由 LLM 评判模型输出与预提取的 11631 个原子事实的对齐程度,产出一致性(Consistency)、覆盖率(Coverage)和反幻觉(Anti-Hallucination)三项指标,设有两种模式:easy 模式提供原始任务指令作为提示,hard 模式则要求模型仅从视觉观察推断操作过程,不提供任何语言线索。
FineVLA-Policy:验证细粒度语言的策略收益
保持视觉观察和动作标签不变,仅改变配对语言(Raw-only vs FG-only vs Mixed),严格隔离语言监督效果。为系统验证细粒度标注的有效性,实验设计了三种策略配置以分离架构与数据规模的影响:RDT-OFT 与 RDT-GR00T 使用相同预训练数据、不同动作解码架构(OFTvsGR00T),RDT-OFT 与 AlohaMix-OFT 使用相同架构、不同规模预训练数据(AlohaMix 约为 RDT 的 13 倍)。每种配置均在七种 FG:Raw 指令比例下评估,确保结论不受特定架构或数据规模的影响。
模型理解能力
RoboFine-VLM 在 VQA 轨道取得 68.2% 准确率,超过最强通用基线 GPT-5.4(60.2%)+8.0 个百分点;Caption hard 设置下得到 82.2%,超过 GPT-5.4(78.0%),自动评分与人工排名高度一致(Spearman 0.943)。
仿真实验 RoboTwin
在 RoboTwin 上评估七种 FG:Raw 比例,揭示两个关键发现:
发现一:FG-only 在所有设置中均优于 Raw-only(增益 + 1.4 到 + 8.1),细粒度监督不损害任务成功率。
发现二:成功率呈倒 U 型趋势,峰值在 FG:Raw=1:2 到 1:1。最佳设置达 86.8%/82.5%,比基线 + 15.0/+11.1。Raw 告诉模型” 做什么”,FG 告诉模型” 怎么做”,两者互补。
真实机器人实验


