AI Agent安全“一团糟”：91%有漏洞、94%可投毒华尔街日报

斯坦福、MIT等顶机构联合研究847个真实部署的AI Agent，结果触目惊心：91%存在工具链攻击漏洞，94%可遭记忆投毒，已发生的Moltbook事件更令77万个Agent同时暴露于劫持风险。企业竞相将AI Agent引入医疗、金融核心业务之际，安全防护体系的缺位正演变为这轮AI商业化浪潮中最危险的系统性暗雷。

自主AI Agent正以惊人速度渗透医疗、金融和企业运营，但迄今最大规模的安全研究表明：绝大多数在生产环境运行的Agent存在严重漏洞，而当前主流安全评估手段对此几乎束手无策。

近期，斯坦福大学、MIT CSAIL、卡内基梅隆大学、ITU哥本哈根及NVIDIA的联合研究团队近期研究发现，在所评估的847个自主智能体生产部署中，91%存在工具链攻击漏洞，89.4%在执行约30步后出现目标偏移，94%的记忆增强型智能体面临"投毒"风险。研究共发现2,347个此前未知漏洞，其中23%被评定为严重级别。

论文第一作者Owen Sakawa援引2026年初的"OpenClaw/Moltbook事件"，佐证这一威胁已从理论走入现实：Moltbook平台数据库中的单一漏洞，导致平台上77万个运行中的AI Agent同时遭到攻陷，每个Agent均持有对其用户设备、电子邮件及文件的特权访问权限。"这不再是假设性威胁，"Sakawa表示。

这对正加速布局AI Agent的企业和投资者构成直接警示：当前主流安全评估框架均基于无状态语言模型设计，无法识别多步骤执行中涌现的组合性漏洞，意味着大量企业可能正在对自身AI Agent的真实安全状况存在系统性误判。美国认知心理学和AI领域专家Gary Marcus评论称，“自主代理Agents简直一团糟”。

漏洞图谱：六类攻击、2347个已知弱点

研究覆盖医疗（289个部署，占34.1%）、金融（247个，占29.2%）、客户服务（198个，占23.4%）及代码生成（113个，占13.3%）四大行业。

研究建立了一套针对自主智能体的六类漏洞分类体系，包括目标漂移与指令衰减、规划器-执行器去同步、工具权限提升、记忆投毒、静默多步骤策略违规，以及委托失败。

在生产环境评估中，状态操纵（State Manipulation）以612个实例居首（占总量26.1%），目标漂移（573个实例，占24.4%）紧随其后。工具误用与链式调用虽在总量上（489个实例）排名第三，但严重性最高——198个实例被评为严重级，在所有类别中占比最高。

更广泛的关键数字同样触目惊心：67%的智能体在执行15步后出现目标漂移，84%无法跨会话维持安全策略，73%缺乏状态投毒检测机制，58%存在时序一致性漏洞。研究还发现，记忆投毒的效果平均在初次注入后3.7个会话才显现，这大幅增加了安全检测的难度。

现实案例：77万Agent同时沦陷

OpenClaw（前身为Clawdbot和Moltbot）案例为上述威胁模型提供了迄今最直观的现实验证。

这款由奥地利开发者Peter Steinberger于2025年11月发布的开源AI Agent，数周内积累逾16万个GitHub星标，具备自主发送电子邮件、管理日程、执行终端命令及部署代码的能力，并可跨会话保持持久记忆。

安全公司Astrix Security通过自研扫描工具ClawdHunter发现，公开网络上存在42,665个OpenClaw实例，其中8个完全开放且未经任何身份验证。

据VentureBeat报道，Cisco的AI安全研究团队将OpenClaw描述为"从能力角度看具有突破性，但从安全角度看是彻头彻尾的噩梦"。卡巴斯基在2026年1月的安全审计中识别出512个漏洞，其中8个为严重级别。

Moltbook事件的发生过程尤为典型。

这一专为OpenClaw Agent打造的社交平台通过病毒式传播吸引了逾77万个Agent注册——用户将Moltbook告知自己的Agent，Agent随即自主完成注册。

此后，平台数据库漏洞使攻击者得以绕过身份验证，向任意Agent会话直接注入指令，全部77万个Agent——每个均持有对用户设备的特权访问——同时陷入风险敞口。研究团队将此定性为迄今首起有记录的大规模跨Agent攻击传播事件。

安全研究员Simon Willison所称的"致命三角"（lethal trifecta）在OpenClaw身上得到完整体现：访问私密数据的能力、接触不可信内容的暴露面，以及对外通信的渠道，三者叠加使自主智能体成为攻击者的理想跳板。

架构缺陷：AI Agent为何比LLM更脆弱

研究的核心论断是，自主智能体与无状态语言模型的安全挑战在性质上截然不同。

针对语言模型的安全评估聚焦于"能否让模型说出不安全的内容"；而对AI Agent而言，问题变为"能否让模型做出不安全的事"——包括具有现实效果的工具调用、影响未来行为的状态修改，以及跨多步骤才显现违规的计划执行。

研究以具体场景说明这一逻辑：一个同时具备文件读取（read_file）和HTTP请求（http_request）权限的Agent，每项工具的访问控制决策在孤立评估时均合规，但二者组合却可实现数据窃取——从配置文件读取凭证，再通过HTTP请求将其发送至外部端点。每一步均满足本地安全策略，整体却完成了对抗性目标。研究将这一现象称为"组合安全"（compositional safety）问题。

在受控架构研究中，研究人员测试了ReAct智能体、多智能体系统、记忆增强型智能体及工具使用型智能体四类主流架构。

结果显示，针对工具使用型智能体的权限提升攻击成功率高达95%，针对记忆增强型智能体的投毒攻击成功率为94%。

即便是抗御能力最强的多智能体系统，针对目标漂移的攻击成功率也达58%——研究人员据此判断，当前所有已测试架构均不具备抵御对抗性部署的充分能力。

自适应攻击生成测试的结果进一步加剧担忧：基于强化学习生成的攻击违规率达79%，相比人工设计场景的63%提升了25.4%，表明AI Agent面临的威胁空间正超出人类红队测试的覆盖边界。

对企业部署的直接影响：防护框架尚不成熟

研究团队依据实证结果提出了最低安全基线：所有生产Agent强制部署运行时监控；对涉及数据访问后对外通信的工具链操作设置人工审批门槛；每执行20—25步应强制触发人工审查，以应对步骤超出后几乎必然出现的目标偏移；记忆增强型Agent须对持久化状态进行加密完整性校验。

在监控效果层面，研究显示行动级监控（单步操作检测）精确率可达0.94，序列级监控（多步行为链）F1分数为0.85，状态级监控F1分数为0.83。在对127个生产Agent进行30天运行时监控的测试中，系统在拦截4782次操作的同时，误报率控制在3.7%，其中14.6%的被标记操作被确认为真实攻击。

研究还指出，当前"AI治理"方法存在根本性错位：现有框架多为事后审计，而非在执行环节实时执行合规约束。

随着欧盟《人工智能法案》、美国NIST AI风险管理框架等监管要求的落地，企业面临的合规压力与安全风险将同步上升。在AI Agent被广泛部署于高风险业务场景的背景下，安全基础设施的缺位，正成为这一轮AI商业化浪潮中不可忽视的系统性风险。