3B激活参数，干翻GPT-5.4和Opus4.6量子位

龙虾上车，一直有个问题，端侧不智能，云端有延迟。

复杂任务需要推理，推理需要参数，参数多了放不进车机，能放进去的又太弱，这个循环几乎无解。

刚刚，商汤绝影发布Sage，一个32B总参数、激活参数只有3B的端侧多模态大模型，突破了这一问题，首次将云端级智能体能力落地端侧。

它在公开Agent评测基准PinchBench上拿到了94%的最佳任务完成率，超过Claude Opus4.6（93.3%）、GPT-5.4（90.5%），以及一众参数规模远比它大的云端旗舰模型，并且已在英伟达OrinX端侧平台实现部署。

作为端侧智能体基座，Sage可以接入OpenClaw、Hermes等主流Agent框架，为更多端侧智能体落地提供核心支撑，可覆盖出行、家庭等全场景。

3B激活参数超越大参数量模型

在公开Agent评测基准 PinchBench 中，Sage端侧大模型最佳任务完成率达到94%，超越Claude-Opus-4.6（93.3%）、Claude-Sonnet-4.6（88.0%）、GPT-5.4（90.5%）、Google-Gemini-3（87.0%）、Google-Gemma-4等一众前沿模型。

这里的榜单，PinchBench是龙虾之父PeterSteinberger推荐的公开Agent评测基准。

作为面向真实Agent工作流的评测榜单，PinchBench不依赖固定不变的静态题库，而是随着公开任务库持续扩充和版本迭代不断演进。

其公开任务库覆盖写作、研究、编码、分析、邮件、文件处理、日程管理、记忆与技能调用等典型场景，重点考察模型在工具调用、多步推理和任务闭环执行中的综合能力。

PinchBench要求模型完成真实任务执行，综合衡量成功率、速度与成本，测试周期更长、资源消耗更高，单任务token消耗可达数十万量级。

模型在PinchBench上的表现，更能反映它在复杂真实场景里的综合能力。

北京车展期间，商汤绝影将推出搭载Sage的SageBox，作为整车的模型接入硬件。

两大黑科技，让座舱从“听懂指令”到“说到做到”

Sage端侧大模型在PinchBench跑赢一众国际主流云/端大模型的背后，是商汤绝影围绕Sage后训练阶段自研的两项关键技术：SCOUT和ERL。

以SCOUT和ERL为核心的后训练技术体系，一项让模型「学得又快又省」，一项让模型「做事不出错」，解决了车载大模型从「能听懂指令」进化到「能独立办成一件复杂的事」这个卡了很久的问题。

SCOUT：让大模型学复杂任务，省60%算力

SCOUT（Sub-Scale Collaboration On Unseen Tasks，分级协同学习框架）技术重点解决大模型学习复杂出行场景任务时成本高、试错慢的问题，在复杂任务能力注入过程中可节省约60%的GPU小时消耗。

很多任务涉及空间规划、设备联动、多步决策，直接让大模型自己试错，既慢又烧算力。

SCOUT的思路是把「探路」和「学习」拆开，先派一个轻量小模型在任务里跑一遍，把走得通的路径筛出来，再把这批高质量经验喂给大模型。小模型探路，大模型吸收，训练成本下去了，真实用车场景的技能也掌握得更快。

ERL：让模型自己擦掉错误步骤，任务成功率提升20%

已被机器学习顶级会议ICLR2026收录的ERL（Erasable Reinforcement Learning，可擦除强化学习）技术，聚焦复杂任务链路中的错误识别与纠偏。

用户在真实使用中提出的需求，往往需要模型跨多个步骤完成推理和执行，中间一旦某一步出现偏差，整个任务流程就可能失效。

ERL让模型能主动识别推理过程中的错误步骤，就地擦掉，在原位重新生成，阻止偏差往后扩散。这项技术让Sage在多跳复杂推理基准上较此前SOTA取得显著提升，装车后Sage在复杂任务上的完成率提升了20%。

SCOUT和ERL两项技术前后协同共同推动Sage从语言大模型演进为能够独立完成复杂任务的智能体。

叠加一体化多模态架构与原生训练数据的优势，Sage在能力、成本与量产可行性之间取得了平衡，为打造智能体中枢提供了核心AI支撑。

端侧跑出全球领先能力

如果说PinchBench 94%的任务完成率证明了Sage能办成复杂的事，那么真正决定座舱体验的，是模型在各个专业维度上是不是都够用、够稳、够聪明。

不同能力维度的公开基准上，Sage全面领先本月最新发布的同量级端侧旗舰模型Google-Gemma4，把端侧模型的能力天花板抬到了一个新的水位。

MMLU Pro（跨学科专业知识）测试中，Sage获76分，领先同级端侧模型约10%，证明端侧模型具备云端级通用知识密度；GPQA Diamond（研究生级专业推理）测试中，Sage获得77分，提升33%，凸显复杂推理深度；

Human Semantic Understanding（座舱语义与视觉理解）测试中获91分，提升32%，依托原生数据建立独特优势。

在重点考察任务执行能力的τ2-bench（工具调用与任务闭环）基准上，Sage以80分的成绩相较Gemma4实现38%的提升，接近翻倍领先。

这项基准专门评估模型调用工具、走完多步任务的实战能力，也是区分会聊天的模型与会办事的智能体的关键分水岭。τ2-bench上近一倍的领先，直接印证了Sage作为端侧智能体基座在真实任务执行环节上的绝对优势。

从专业基准到场景体验

这些专业能力落到真实车舱，转化为一组直接影响用户体验的指标：Sage场景推理精度超过90%，长链路工具调用、逻辑规划、环境感知任务成功率分别达92%、89%、94%，复杂指令遵循率提升40%。

在OrinX平台部署下，Sage可实现首字响应（TTFT）约0.5秒、单Token推理延迟（TPOT）低至0.03秒、生成吞吐达到80tk/S，平均任务时长优于主流API模型，为座舱智能体提供稳定、实时、可持续在线的运行能力。

模型可以一次性解析用户的复合指令，自动联动空调、影音、导航等车载系统完成任务闭环；结合传感器对乘员状态与路况的感知，还能主动提供儿童模式、智能路线调整等服务。

Sage不再是“被动唤醒、单次响应”的语音助手，而是一个真正懂场景、会思考、能服务的出行伙伴。