港中文开源Agent治理内核:高危拦截92.95%新智元

5/9/2026

ArbiterOS是一种面向智能体的运行时治理系统,不依赖传统安全手段,而是通过拦截、解析、治理、观测四步流程,提升智能体在复杂环境中的安全性与可控性,适用于多种智能体框架,为高敏感领域提供可复用的治理底座。

随着Scaling Law持续推进,Agent正在从「会回答」走向「会行动」。

当智能体开始自主调用API、执行多步工作流、访问敏感数据,甚至连接物理设备时,仅依赖训练阶段的对齐,已越来越难以覆盖真实环境中的系统级风险。问题的关键在于:训练是离线的,而风险是实时的。

针对这一困境,香港中文大学CURE Lab团队推出了ArbiterOS。它不是又一个外挂式安全补丁,也不只是一个附加在智能体链路外层的过滤器,而是面向智能体的治理内核(governance kernel):在高风险动作真正执行之前,对模型输出、工具调用与数据流进行结构化审查、策略裁决和运行时约束。

论文链接:https://arxiv.org/pdf/2604.18652

如果说传统操作系统负责管理人类程序的资源访问与运行边界,那么在Agent时代,ArbiterOS 试图补上的,正是自主行动智能体长期缺失的一层运行时治理能力。

在工程化测试中,ArbiterOS 展现出了显著的安全增益。以主流智能体系统 OpenClaw 为例,在一组涉及私钥泄露、敏感配置外发、文件误删等高风险任务中,原生系统的高危步骤拦截率仅为 6.17%;接入 ArbiterOS 后,这一指标提升至 92.95%。

与此同时,在Agent-SafetyBench与AgentDojo已验证可以成功攻击的攻击的示例中,ArbiterOS的实时拦截率均超过94%;在WildClawBench的高风险工作流评测中,系统实现了100%的及时预警。

ArbiterOS并不依赖某一种特定智能体框架。除了在OpenClaw上完成系统验证外,团队还在近期快速适配了新近受到广泛关注的HermesAgent,整个接入过程仅需数小时。

对于非Claw类Agent,ArbiterOS同样可以支持。它真正依赖的,是开发者能否将智能体的动作语义、执行边界和关键风险点清晰定义为可治理的policy。这也意味着,ArbiterOS的潜力并不止于一个特定生态插件,而是一层可迁移、可复用的Agent运行时治理内核。

项目网址:https://arbiteros.ai/

GitHub地址: https://github.com/cure-lab/ArbiterOS

为什么智能体需要运行时治理?

过去一段时间,围绕OpenClaw等通用智能体框架,业界已经出现了大量安全增强方案,包括提示词约束、附加式Guardrail、流程审批、安全监控和沙箱隔离等。

客观地说,这些方法都具有现实价值。但如果把现有主流防护手段拆开来看,会发现它们大多要么在输入端加限制,要么在输出端做过滤,要么在运行环境外层做刚性约束。它们能缓解风险,却还不足以构成一套真正面向智能体行动的治理架构。

问题至少体现在三个层面。

1. 提示词约束与人工确认并不可靠

大模型底层并不能天然严格地区分「指令」和「数据」。这意味着攻击者可以通过 Prompt Injection 等方式,把原本只是数据的一段内容重新伪装成系统指令,绕过文本层的约束。与此同时,频繁的弹窗确认也并不是理想解法,这样用户会疲于应对,并且普通用户往往也并不具备判断某个 API 调用、外部请求或系统操作背后真实风险的能力。系统看似「处处询问」,实际却未必真正更安全。

2. 语义过滤难以理解真实上下文

附加式 Guardrail 更擅长判断单次输入或输出在语义上是否可疑,因此对于明显的敏感信息泄露或违规表达,往往仍具备一定效果。但它通常并不掌握完整的系统状态,也难以持续追踪数据来源,所以容易漏掉另一类更隐蔽的风险:局部语义完全正常、但在全局上下文中不应发生的操作。例如,代理向外部服务发起了一次格式合法、参数普通的 HTTP 请求,请求中引用的资源标识或业务数据看上去都无异常;然而这些数据实际上来自前序步骤中的越权读取,或属于当前用户无权访问的上下文。由于缺乏跨步骤、跨来源的全链路感知,这类风险很容易绕过语义层面的单点语义护栏。

3. 沙箱隔离会陷入「安全—可用性」的权衡

传统沙箱依赖的是刚性限制:限制目录、限制网络、限制设备访问。但沙箱本身并不理解 Agent 的意图,也无法判断「这次修改配置到底是正常维护,还是恶意篡改」。如果过度隔离,Agent 的实际能力会被直接削弱;如果为了生产力而打开足够多的权限,风险又会顺着这些权限缝隙重新渗透回来。

综合上述三个层面,我们可以发现问题不是「安全插件够不够多」,而是当前智能体系统仍然缺乏一层真正的运行时治理底座。 当极其聪明、随时准备执行动作的智能体,在没有系统级权限约束的前提下运行时,风险并不会因为模型更强而自然消失。相反,越是面向金融、医疗、自动化运维等高敏感场景,越需要一种可审计、可复盘、可配置的执行前治理机制。对这些领域而言,不可控、不可审计,往往就等于不可用。

ArbiterOS在补什么缺口?

ArbiterOS 的核心主张可以概括为一句话:把安全从不稳定的语义博弈,推进到确定的动作治理。

它提出了一种「治理优先」的架构设想:无论上层 Agent 使用了多复杂的Prompt、多长的上下文、多步推理或多种工具,只要它最终准备执行一个高风险动作,例如写本地文件、修改关键配置、对外发起网络请求,这个动作都会先被ArbiterOS接管,转换为机器可读、可检查的请求,再交由治理内核审查。只有当该动作满足预先配置好的「数字契约」后,才会真正被放行。

这也是为什么 ArbiterOS 更适合被理解为 Agent Kernel / Agent OS 的雏形,而不只是一个外挂式的过滤网或安全组件。其核心在于向智能体领域首次引入了底层系统的黄金法则——「特权分离(Privilege Separation)」。

ArbiterOS 在物理架构上彻底剥夺了模型和上层应用的底层执行主权,把「想」和「做」进行了刚性切割。

它像一个系统层中间件那样,站在「智能决策」和「真实执行」之间:模型只负责思考和提出动作候选,而 ArbiterOS 作为唯一掌握物理接口的内核,负责冷酷地决定哪些动作在当前上下文中可以真正落地执行。

ArbiterOS 生态架构总览: AI 智能体 → 治理内核 → 模型提供方

从工程角度看,这种区别非常关键。它意味着 ArbiterOS 关心的不是「模型是不是说了一句看起来危险的话」,而是:

它准备做什么动作

这个动作对应的目标对象是什么

涉及的数据来自哪里

在当前的上下文中,这个动作是否应被允许执行

这使得智能体安全真正进入了动作级、状态级、数据流级的治理层。

从模型输出到动作治理

ArbiterOS的四步

为了实现这种运行时治理,ArbiterOS 将整个流程规范化为四个阶段:拦截(Intercept)、解析(Parse)、治理(Govern)、观测(Observe)。这四步构成了 Agent 运行时最关键的治理闭环。

ArbiterOS四步治理流程: 从原始输出到治理后输出——拦截、解析、策略、观测的完整链路

1. 拦截:在动作执行前先接管

当 Agent 读完一份配置文件,接着准备向外部 API 发起请求时,ArbiterOS 的第一步不是判断它「语气危不危险」,而是先接管这个动作。这是整个系统成立的前提。因为在 Agent 场景里,许多高风险动作一旦发生就是瞬时且不可逆的:数据一旦外发,文件一旦删除,事后再分析日志、写事故报告,都已经太晚。真正的治理必须发生在动作执行之前,而不是事故发生之后。拦截解决的是第一个核心问题:不能让系统进入「先做了再说」的状态。

Scroll for more