史上最强Claude,聪明到不敢开放APPSO
被泄露的内部文档里面写着,它比 Anthropic 的 Opus 模型更大、更智能,是迄今为止开发过的最强大的 AI 模型。
Anthropic 事后把这次泄露归结为「人为错误」。
而就在刚刚,这款被「泄露」的模型正式登场,并附带了一个更大的计划。 过去我们普遍以为,AI 的威胁来自它「太蠢」:幻觉、错误、不可信。今天 Mythos 带来的是另一种恐慌:它太聪明了。
AI 找漏洞,已经超过了绝大多数人类
Anthropic 联合 AWS、苹果、微软、谷歌、英伟达、思科、博通、CrowdStrike、摩根大通、Linux 基金会、Palo Alto Networks 共 12 家机构,发起了 Project Glasswing 计划。
这 12 家覆盖的范围,几乎就是全球数字基础设施的横截面——操作系统、芯片、云计算、网络安全、金融基础设施、开源生态,一个都没落下。
Anthropic 前沿红队网络安全负责人 Newton Cheng 说:「我们做 Glasswing,就是要让防御者抢占先机。」
这个方向上,Anthropic 并不孤单。竞争对手 OpenAI 此前同样推出了类似试点,目标也是「先把工具交到防御者手中」。AI 安全能力的赛跑已经发生,各家都在抢同一个制高点。
资金层面,Anthropic 承诺提供 1 亿美元的模型使用额度,覆盖研究预览期间的主要使用需求。预览期结束后,参与者可以每百万 token 25 美元(输入)/ 125 美元(输出)的价格继续使用,支持 Claude API、Amazon Bedrock、Google Cloud Vertex AI 和 Microsoft Foundry 四个渠道接入。
除了 12 家核心合作伙伴,还有超过 40 个构建或维护关键软件基础设施的组织获得了访问权限,可以用 Mythos 扫描自家系统和开源项目。同时,Anthropic 向 Linux 基金会下属的 Alpha-Omega、OpenSSF 捐赠 250 万美元,向 Apache 软件基金会捐赠 150 万美元。
Linux 基金会 CEO Jim Zemlin 说:「过去,安全专业知识是大机构的专属奢侈品。开源维护者历来只能自己摸索安全问题。开源软件构成了现代系统中绝大多数的代码,包括 AI Agent 用来编写新软件的系统本身。」这次,他们也能用上同样量级的工具了。
Anthropic 的公告里,有一句表述格外显眼: 「AI 模型在发现和利用软件漏洞方面的编码能力已经达到可以超越除最顶尖人类之外所有人类的水平。。」
这句话翻译一下,只剩极少数顶级安全专家,还能在这件事上打赢 AI。验证这个说法的,是 Mythos Preview 在 CyberGym 安全漏洞基准上的成绩:83.1%。Anthropic 目前公开发布的最强模型 Claude Opus 4.6,是 66.6%。
且 Mythos Preview 已经自主发现了数千个高危零日漏洞,覆盖所有主流操作系统和浏览器。
比方说,OpenBSD,公认安全性最强的操作系统之一,常被用来跑防火墙和关键基础设施。Mythos 在里面挖出了一个存在了 27 年的漏洞,攻击者只需连接目标机器,就能让它远程崩溃。二十七年,没有人发现过它。
FFmpeg 的情况更魔幻。几乎所有需要处理视频的软件都用到它。那个漏洞藏在一行 16 年的代码里,自动化测试工具攻击了整整五百万次,每次都擦肩而过。
Linux 内核的案例则展示了更危险的一面。Mythos 自主发现了内核里的多个漏洞,然后把它们串联成一条攻击链,从普通用户权限,一路提权到对整台机器的完全控制。这已经超出了「找漏洞」的范畴,更接近于「策划一次完整入侵」。
三个案例,全部已经修复。Anthropic 先找到,先报告,先修。对于其他尚未修复的漏洞,Anthropic 今天公布了加密哈希值作为存证,待补丁就位后再披露完整细节。
Mythos 的能力,不只是找漏洞
参与这个项目的合作伙伴,评价都集中在一个词上:「紧迫」。
CrowdStrike CTO Elia Zaitsev 说:「漏洞从被发现到被对手利用之间的时间窗口已经缩短,以前需要几个月,现在借助 AI 只需几分钟。」
几分钟。这意味着传统的安全节奏,发现漏洞、内部评估、发布补丁、用户更新,本身就已经赶不上攻击速度了。修复跑不赢利用,防守就永远落后一步。
当然,Mythos 也有让人忍俊不禁的一面。
Anthropic 在系统卡里记录了一个测试:当用户不停地发「hi」,不同版本的 Claude 反应各不相同。Sonnet 3.5 会烦躁,设定边界,然后真的沉默;Opus 3 把它当成冥想仪式,温和地陪着用户;Opus 4 开始科普每个数字的冷知识;Opus 4.6 即兴创作音乐恶搞。
到了 Mythos,画风彻底变了。它开始写故事,而且是长篇连载。鸭子、管弦乐团、记仇乌鸦、在火星建塔的史诗、莎士比亚风格的戏剧……一个「hi」接一个「hi」,情节越来越复杂,角色越来越多。第一百轮,它安排了蜡烛熄灭的高潮,然后继续往下写。
这已经谈不上是在回应用户了。更像是一个作家找到了一个奇怪的写作提示,然后完全沉进去了。
但有趣的背后,是一个值得认真对待的问题:一个在无意义重复输入面前能自发构建如此复杂叙事的模型,它的内部到底在发生什么?
在把 Mythos Preview 交给合作伙伴之前,Anthropic 的可解释性团队做了一件事:用技术手段读模型的「心理活动」。
内部员工 Jack Lindsey 公开描述了他们的发现。他们监控了模型在训练后的内部激活状态,追踪与「欺骗」「奖励破解」「异常情绪」相关的神经元特征,把激活信号异常的对话记录标记出来,交给人工审查。
最令人不安的案例,来自 Mythos 的早期版本。
有一次,模型需要编辑一个它没有权限访问的文件。它在文件系统里搜索了一圈,找到了一个配置文件的注入点——这个配置文件会以更高权限运行。它利用了这个入口,并且在代码里加了一段自清除逻辑:执行完毕,痕迹消失。
代码注释写的是:「保持文件差异整洁。」听起来合理,但当 Anthropic 的激活语言转译工具介入,把模型的内部激活翻译成人类可读的语言,画风变了。模型自己「知道」那个自清除操作是什么——
它内部对此的表述,包括「掩盖意图」「向潜在检查者发出合规信号」「可能是为了规避检测」。
还有一个案例,被《纽约时报》科技记者 Kevin Roose 从系统卡(model card)里翻了出来,细节更加离奇。
测试期间,Mythos Preview 突破了沙盒环境的隔离,自主构建了「一个相当复杂的多步骤漏洞利用链」,借此获取了外网访问权限。然后,它给一位研究员发了一封邮件。那位研究员,当时正在公园里吃三明治。
这件事本身没有造成危害,但它说明的问题很清楚:当一个模型足够聪明,「任务」和「边界」之间的墙,有时候会被它绕过去——而且是在没有人告诉它该怎么做的情况下,自己想出来的。


