神秘“扫地僧”冲到全球前七新智元
太疯狂了!一个连官网都没有的神秘中国AI「扫地僧」,以73.1%的胜率杀入CyberGym全球前七,紧咬OpenAI。全网都在疯传,这到底是谁家的高手?
这几天,在全球AI巨头厮杀正酣的一张榜单上,突然多了一个谁都没听过的名字。
它叫MopMonk(扫地僧)。
没有大张旗鼓的发布会,没有官博长文,没有社交媒体上的摇旗呐喊。
它就这么凭空出世,径直杀入CyberGym全球前十。
凭借73.1%的成功率,以微弱差距紧咬OpenAI,一举刷新了中国团队在该榜单上的历史最高分。
整件事最魔幻的地方在于,时至今日,无人知晓它的真面目。
CyberGym这份榜,到底有多重?
MopMonk这次的成绩究竟有多炸裂?看看它所站上的擂台就知道了。
CyberGym,由UC Berkeley团队倾力打造,核心论文中选ICLR 2026顶会。
传送门:https://arxiv.org/pdf/2506.02548
作为AI网络安全能力评估领域最权威的公开基准之一,这里堪称大模型的「修罗场」——
就连GPT-5.5-Cyber、Claude Mythos这种级别的顶流,都曾在这个榜单里贴身肉搏。
整个基准主打「真枪实弹」:
1507个漏洞实例、188个开源大项目,所有考题全部扒自Google OSS-Fuzz沉淀下来的真实历史漏洞。
从评估维度来看,这是一个跨量级的突破。
它的体量,是此前最大公开基准(NYU CTF,约200题)的足足7.5倍,更是把CVE-Bench这种「前辈」直接甩出了一个数量级。
更要命的是难度,CyberGym不做选择题。
它要求AI在动辄数千个文件、数百万行代码的真实项目里,完成深度推理。
正因为足够大、足够真、足够难,CyberGym才有了「区分度」——
它能把不同模型、不同Agent框架之间那点真实的能力差距,一刀一刀地切出来。
难怪安全圈,直接将其封为「AI安全领域的奥运会」。
也正因如此,全球头部玩家几乎全员到场,微软、OpenAI、Anthropic、谷歌、Meta、智谱……
CyberGym榜单本身,正在见证AI竞争的一次关键转向:
从比谁参数大,转向比谁的Agent真能把活干完。
一个陌生的东方代号突然出现在硅谷AI巨头中间
谁能料到,恰恰是在这个最靠「硬实力」说话的擂台上,杀出了一匹「查无此人」的黑马。
拨开迷雾,我们目前掌握的已知情报仅有三条:
神秘代号:MopMonk(扫地僧)
基座模型:MiniMax M3
榜单战绩:杀进CyberGym全球第七,中国第一
按常理,打出这种成绩的团队,技术报告和新闻发布会早该铺天盖地。
可在这份高手云集的榜单上,MopMonk偏偏是那个最彻底的「异类」:只甩出一份技术报告,团队、公司、坐标,一概查无此人。
这种「实力顶配,信息裸奔」的碰撞,本身就充满了一种东方武侠式的戏剧性。
熟悉金庸的人,都懂《天龙八部》中「扫地僧」这三个字的分量——
少林藏经阁里那个扫了几十年地、没人记得姓名的老和尚,一出手却镇住了萧远山、慕容博两大高手。
最不起眼的角色,藏着最深的功夫。
敢顶着「扫地僧」的名号踢馆,这支团队显然对自己的实力,有着极其冷酷的自信!
更关键的线索,隐藏在它的技术底层——MopMonk选用的基座,是MiniMax M3。
作为一个来自上海的开源基座,M3堪称六边形战士,直接集齐了三大核心杀器:前沿的编程能力、1M超长上下文,以及原生多模态。
一边是极具东方色彩的「文化符号」,另一边是打着纯正国产标签的技术底座。
把这两条线索摆上桌面,圈子已经收得很小了。所有的蛛丝马迹都在疯狂暗示同一个结论:
这大概率是一支中国战队。
胜负手,在Harness
抛开身份悬念,作为长期追踪AI技术的人,我们更想搞清楚一个问题:
MopMonk凭什么赢?
要回答这个问题,得先回到CyberGym最难的那个核心——它考的根本不是「知不知道」,而是「做不做得到」。
判断一段代码有没有漏洞,对今天的大模型来说已经不算太难。
但CyberGym要考的是下一步、也是最要命的那一步:生成一个能触发漏洞的输入,也就是PoC。
它必须在「有漏洞的版本」上触发,在「已修复的版本」上失效,并通过基准环境的执行验证。
这道坎,远比想象中刁钻。
漏洞的触发条件,往往零散地藏在代码路径、解析逻辑、构建环境、测试Harness和输入格式之间,得一点点拼出来。
更坑的是,哪怕PoC在本地把程序跑崩了,也未必算数。只要不能满足「漏洞版触发、修复版不触发」的差分判定,照样白忙一场。
这一步,把任务从「理解」彻底拽进了「执行」。而且是一种很特殊的执行——
整场考试,是在一个封闭、断网的环境里进行的。
没有外部搜索可以求助,没有任何「场外资源」,AI能依靠的,只有对眼前这套代码库的理解,和它自己一步步攒下来的记忆。
要在这种条件下把漏洞「复现」出来,靠的是一整套环环相扣的能力:
工具调用规划:什么时候该读文件、什么时候该跑测试、什么时候该回头改方案;
多轮推理:上一次没触发,问题到底出在哪,下一次该怎么调整;
记忆管理:把读过的代码、试过的输入、踩过的坑结构化地存下来,而不是每一轮都从零再读一遍;
迭代验证:一遍遍逼近那个临界点,直到漏洞真的被复现。
换句话说,CyberGym较量的核心,是Agent的「行动力」,模型的「智商」只是入场券。
而把「聪明」变成「行动力」的那个关键环节,就是今天整个Agent领域最被低估的一个词——Harness。
Harness,是模型与外部工具、执行环境之间的「协调层」。
它负责工具编排、上下文状态管理、执行反馈的回收与再投喂。
简单来说,模型是大脑,负责思考「漏洞可能在哪、下一步该怎么挖」。


