Claude「断电」背后：中国捅开「死穴」新智元

6月22日Claude全家桶集体宕机，只是冰山一角。当最强大模型被丢进真实机房直面「幽灵故障」，AISHPerf-智算运维智能体评测基准给出残酷答案：全军覆没，无一过50分。这道鸿沟，第一次被量化。

6月22日，全球AI圈突然集体「断电」。

Claude的「全家桶」——claude.ai、Console、API、Code、Cowork——在短短几个小时内大面积宕机。

开发者终端刷满红色报错，企业协作流水线瞬间断流，社交媒体上炸了锅：有人晒出满屏502截图配文「被AI炒了鱿鱼」，有人感慨「2026年最体面的摸鱼理由——模型宕机了」。

而这，还算快的。笑归笑，背后的现实却一点也不好笑。

当AI从聊天玩具变成驱动千亿美金算力投资的「生产设备」时，基础设施的稳定性，已经成了决定整个产业生死存亡的隐形天花板。

而更残酷的测试结果刚刚出炉——

AISHPerf-智算运维智能体评测基准，由中国信息通信研究院（信通院）推出，无问芯穹参与重点技术建设，把包括Claude-4-sonnet在内的国内外主流大模型扔进真实GPU集群环境，让它们处理真正的生产级故障。

结果，全军覆没，综合得分全部低于50分。中等和困难难度正确率普遍不到一半。

测试对象包括Claude-4-sonnet和主流开源模型等，均做匿名化处理

这不是语言游戏的失败，这是「说」与「做」之间，一道真实而残酷的鸿沟。

万亿市场，智能体到底能不能稳稳接住？

想象一下这样的场景：凌晨三点，训练任务突然出现无规律剧烈性能波动。

运维团队紧急兜底排查，却遇上最诡异的情况：网络链路正常、存储性能正常、节点硬件也正常。

为了定位根因，运维人员只能全链路逐层溯源排查，从模型切分策略、任务调度逻辑，一路深挖到底层网络协议、内核参数、存储配置规则……

可能要耗费巨大的人力物力和时间，最终才会在一些极为隐蔽的边缘场景中，发现问题。

最致命的是，这类故障的排查周期，往往长达十天半个月。

而在这漫长的排障期间，大量服务器在持续空转，海量算力资源白白损耗，AI训练业务全程停滞。

像这样的「幽灵故障」，在任何大规模GPU集群里都不是个例。

它们隐蔽、跨层栈、难以复现，却直接吞噬真金白银。

摩根士丹利预测，2028年全球AI基础设施累计投资将达2.9万亿美元。

其中，运维人力、故障损失与集群闲置构成的成本占比高达15%-20%，全行业潜在可优化空间超过4350亿美元。

无问芯穹早在2025年10月就已率先探索和应用早期版本的运维智能体。

真实生产环境里的数据最有说服力：工单平均处理时长缩短 50%，关键故障处理效率提升约6倍，运维人员人效提升5倍以上，综合运维成本下降约30%。

这些数字背后，是无数个被解放出来的凌晨三点，和无数度没有被白白烧掉的电。

但问题来了——究竟什么样的运维智能体，才配得上「好用」这个词？

全球首个真实机房的「开卷实操考」

过去对大模型的评估，更像一场语言知识竞赛。模型背得越多、说得越漂亮，分数就越高。

可当AI真正走进基础设施领域，「能否解决实际问题」成了唯一标准。

因为，它最终会影响到每一度电、每一张GPU卡的产出效率。

AISHPerf-智算运维智能体评测基准，彻底颠覆了这种「纸上谈兵」。

它源自无问芯穹积累的近百亿条真实运维数据。

经过严格过滤、去重、脱敏三阶段精细标注，最终提炼出高质量、高保真评测用例。

每一条都包含真实的问题现象和明确的故障根因。

更重要的是，这套基准不给根因，需要AI自行探索。

它只告诉你：「训练任务卡死了，用户反馈是这样的，请复现并修复。」

智能体必须自己进入真实集群环境，自主发现线索、提出假设、验证、执行修复。

整个过程必须安全、有效、不能把机房搞炸。

这才是真正的「开卷实操考」——它考的是长链路多跳推理、与真实物理设备的交互能力、在不确定性中做决策的勇气，以及最关键的安全边界意识。

为了让这场考试公平且可重复，AISHPerf-智算运维智能体评测基准配套了AIops-Chaos混沌工程项目。

它能通过软件层精准模拟GPU掉卡、显存错误、NVLink故障、网络分区等真实硬件异常，无需物理损坏硬件，就能构造高保真测试环境。

只需要一台GPU+多轨RoCE NIC服务器，就能实现分钟级的故障编排与自动化恢复验证。

这套评测框架（AIops-Eval）包含User、Agent、Env、Evaluator、Tracing五个核心模块，完整记录智能体每一步的轨迹，支持自定义规则和LLM-as-Judge双重评测。

它不再关心模型「知道多少」，只关心它在真实世界里，能不能把事情做成。