Claude Mythos打爆AI评测天花板华尔街日报

就在刚刚，Claude Mythos把评测干「失效」了：METR第一次测不准，AI攻防拐点到了！AI进化已成「外星文明」降临，超越指数增长，2027 AGI奇点正加速撞向人类。

刚刚，Claude Mythos干爆METR评测上限！超指数级进化已经逼近AGI奇点。

就在今天，一张趋势图刷屏全网。

国际最权威的AI评测机构METR惊恐地发现，他们的「温度计」要被Mythos撑爆了。

Claude Mythos Preview的能力，已经捅破了人类评测框架的天花板，进入了「失真区」！

OpenAI超级对齐团队前成员Leopold Aschenbrenner曾预测2027年是AGI的奇点，但现在的最新数据显示：Mythos的表现已经略高于2027情景的趋势线。

「外星文明」，已经强行着陆，阴影已覆盖整片天空。评测界的大地震当「满分」不再有意义

在METR最新的测试中，他们试图衡量AI完成长周期复杂任务的能力（Time Horizons）。

METR设置了一个名为「50%成功率时间线」的指标——即模型有50%的概率，成功独立完成一项人类需要耗费X小时才能完成的任务。

此前，此前的模型，成绩是几十分钟或几个小时。

但当Claude Mythos站上考场时，数据直接爆表了：它在人类需要16个小时才能完成的极其复杂的长线任务上，轻松达到了50%的成功率！

你可能会问：那测试32小时、64小时的任务呢？

METR给出的答案让人惊恐：「我们测不了了。」

在METR精心构建的228个魔鬼级测试任务中，只有区区5个任务是被归类为「16小时及以上」的。这意味着什么？

这意味着人类现有的、引以为傲的难题库，已经被AI彻底掏空了。

就像用刻度只有1米的卷尺去量一栋摩天大楼，除了知道它「爆表」了，我们对其真实的深度一无所知。

「外星文明」已降临？

在16小时以上的区间，METR根本没有足够的样本来对Mythos进行准确的定量比较。

METR坦言，在这个阈值之上，数据的测算变得「不稳定且失去意义」。

这是人类历史上极为罕见的一幕：创造者失去了丈量被创造物能力的工具。

当「考官」已经出不出题的时候，「考生」的真实实力到底有多恐怖？

这不仅仅是一次常规的AI模型迭代，而是一次「超指数级」的物种变异。旧的法则正在崩塌，AI已成「外星文明」降临！

AI从业者、硅谷著名观察家Chase Brower直言，AI发展远超行业预期：根据SemiAnalysis的数据，AI行业的年化营收已经远超此前对2026年第二季度约260亿美元的预测。

当前的AI技术已如「清晰可见的外星飞船」一样悬浮在人类文明的天空中。

人类已经无法理解AI的超指数增长！

这不再是实验室里的数据，标志着AGI的征兆已经完全显现！

超指数，比指数增长还快

把METR那张趋势图拉出来细看。

纵轴是AI能自主完成的编码任务时长，从8秒到5年，对数刻度。横轴是模型发布时间，2021到2028。每一个点是一个模型版本。

把点连起来，画出来的不是一条直线，不是一条指数曲线，而是一条比指数还陡的弧。

AI在超指数增长，AI增速本身在加速。

▪︎2021年，最好的模型能自主完成8秒级别的任务——写一行代码，修一个拼写错误。

▪︎2023年初，推到了1分钟量级——一个小函数、一段简单调试。

▪︎2024年中，冲到了大约1小时——一个完整feature的实现、一次多文件重构。

▪︎2026年4月，Mythos Preview落点：16小时——一个完整的工程子项目，读代码、理解架构、制定方案、编写实现、调试测试，一气呵成，不需要人类盯着。