字节跳动新算法，直接把1/3的算力砍掉了华尔街日报

过去这两年，大语言模型走得实在太快，尤其在那些需要复杂逻辑推理的任务上，能力已经高到了一个我们以前不太敢想的水平。

我到现在还记得 ChatGPT-3.5 那个时代。那时候的 AI 顶多帮你做点简单数学题，写几行基础代码，稍微绕一点的问题就卡壳。没有联网搜索，更别提什么深度思考，它能回答你每一个问题，靠的全是预训练阶段塞进脑子里的那些“存货”，用完了就没了。

但现在不一样了。模型开始学会自己拆问题，一步一步推，生成超长的思维链，甚至在数学竞赛、编程挑战这种硬核任务里，做出了让人类都瞪大眼睛的成绩。

不过，Scaling Law这东西，带来了“大力出奇迹”的同时，也悄悄埋了一个问题：思考过剩。

你回想一下那两个经典的AI笑话，就特别能说明问题：

一个是美国人拿来测 AI 智商的：“Strawberry”这个单词里有几个字母“r”？这问题学前班小孩都能答出来。但一年前，ChatGPT 答错过，DeepSeek 答错过，豆包也答错过。像 R1 这种推理模型，甚至会翻来覆去想十分钟，自己跟自己辩论，最后慎重其事地告诉你：两个。

等 AI 终于把这个坑填平了，中国人又出了个新题：要去 50 米外洗车，应该开车去还是走路去？

AI 又乱了。有的秒回“走路去”，有的把时间、路程、成本全算了一遍，最后还是得出结论：“走路去”。

而且洗车那个例子也提醒我们，想得久，不代表想得对，有时候反而是因为想太多，自己把自己绕进去了。

所以大家开始问：一个能力已经溢出的模型，真的需要想那么久吗？它自己知不知道，什么时候该停下来？

字节跳动和北航最近发了篇论文，专门回答这个问题。

01 诊断环节：问题出在哪里？

对于AI企业来说，token就是最重要的资源。减少大量token的无用消耗，无异于大大节约了推理成本。

对 AI 企业而言，token 即核心资源。减少大量无谓的 token 消耗，无异于大幅节约推理成本。

研究团队在观察模型运行过程后发现，问题的关键出在采样策略。在现有采样范式下，模型的高效推理能力难以充分发挥。

一般来说，人们评估模型能力经常采用的是一种名为“Pass@1”的策略，也就是只取模型生成的一次结果，看它是否能够正确通过测试用例。

但在这种采样模式下，我们可以从DeepSeek等模型的显式思维链中明确看到：在得出正确答案后，模型通常不会立刻停止并告诉用户答案，而是会继续生成大量无效的验证或重复步骤。

我们做个测试，让AI计算20260226的平方，并强调直接输出结果，DeepSeek思考了38秒才给出了正确答案：

这还只是显式思维链中截取的一部分。事实上，在这38秒的思考过程中，模型在得出正确答案后还经过了检查位数、检查进位错误、检查末位数字等多个毫无用处的验证环节。

事实上，这不是DeepSeek独有的情况。根据现有的研究，人们已经注意到了这个反直觉的现象：

思维链长度的延伸与答案的正确性并非正相关关系，有时思维链更短反而准确率更高。

例如，在AIME 2025基准测试中，DeepSeek-R1的回复长度足足是Claude 3.7 Sonnet的5倍，但准确率却相差无几。

而对于同一个模型在同一个问题上分别生成正确和错误的答案，有72%的概率是更长的回复出错。

为了系统性地量化模型这种“过度思考”的现象，字节和北航的研究团队定义了一个新指标：

首次正确步骤比率（RFCS）=正确答案首次出现的步骤索引/总推理步骤数。

例如，DeepSeek的1.5B轻量级模型在某些问题上只需花费500个token即可得出正确答案，但受限于现有的采样策略，它要继续生成452个冗余token才能结束思考。

看起来，在现有的采样范式下，模型并不知道自己应该何时停止。

02 惊人发现：模型心里有数！

然而，研究团队却发现了一个反直觉的事实：

若是扩大采样空间至“Pass@K”，也就是让模型生成K个思维链，看其中是否有一个生成的答案能够正确通过测试用例，结果就截然不同。

为此，论文定义了两个指标和一个符号：

局部置信度（Next-token Probability）：模型生成下一个词的概率；

路径置信度（Cumulative Log-Probability，即Φ）：模型从头到尾生成这条思维链的平均累计概率；

：思维链的结束标识。

如果模型只根据局部置信度来决定是否该在下一个词输出“”来停止思考，它总是没什么信心，因为每次输出下一个词的概率都比输出结束标识的概率要高。

因此，思维链的长度就这样不断的延伸下去。

但若是根据路径置信度来判断是否该停止思考，则情况完全相反：