HuggingFace力荐,Bengio也押注:这个1500训出的模型量子位

6/13/2026

好家伙,这次不是模型圈自嗨。

一个训练成本约1500美元、参数量约1B、从零开始预训练的小模型,把HRM推到了下一代推理架构讨论的中心。

HuggingFace联合创始人兼CEO Clem Delangue亲自转发推荐。

图灵奖得主Yoshua Bengio作为共同作者参与的新论文,也走向了同一条latent recursive reasoning路线。

更反常的是,它不是蒸馏,不是微调,也不是在已有大模型能力上套壳。

它就是Sapient Intelligence发布的HRM-Text。

如果只看参数量,它很容易被写成一个熟悉的故事:“小模型又赢了。”

但HRM-Text真正值得注意的地方,不是小,也不是便宜。而是它背后那套HRM架构,正在问一个更底层的问题:

模型到底需要记住全世界,还是需要学会如何思考、如何查找、如何验证、如何行动?

过去几年,大模型行业的默认答案很简单:参数更多,数据更多,训练更久,Token更长。

HRM走的是另一条路。

它不是继续把模型做成一个越来越大的知识仓库,而是试图把模型做成一个更强的推理核心。

大模型像一个背着图书馆的学生,HRM更像一个会解题、会查资料、会复盘、会行动的人。

当然,真正让技术圈认真讨论HRM-Text的,不是一次转发,而是一组很反常的数字。

一个约1B参数模型,在MATH上拿到56.2,在GSM8K上拿到84.5,在ARC-Challenge上拿到81.9,在DROP上拿到82.2。

训练成本约1500美元,16块H100跑了不到两天。

没有post-training,没有RLHF,也没有依赖显式思维链数据。团队同步开放了论文、模型权重和预训练代码。

这意味着,HRM-Text不是在现有大模型能力上做包装,而是在基础预训练阶段,直接验证一种新的架构路线。

这不是又一个“小模型逆袭”的故事。更准确地说,它是一次推理模型的换脑实验:

不让模型说出更多思维链,而是让模型在开口之前,先在脑子里想完。

而这条路线,很快也出现在了更高层级的学术讨论中。

HRM-Text发布前后,图灵奖得主Yoshua Bengio作为共同作者参与发布了《Generative Recursive Reasoning》。论文提出的GRAM,在核心计算结构上高度复用了HRM的分层递归骨架:同样是高层状态、低层状态、双时间尺度、多轮递归更新,只是在此基础上进一步加入概率生成模块。

换句话说,Sapient不是等行业给出答案之后再追随,而是先把一个关键问题抛了出来,并率先拿出了可运行、可开源、可验证的模型系统:

模型能否在输出之前,通过潜空间中的多轮分层递归计算,完成更深层的内部推理?

HRM-Text的问题因此不只是:

一个1B模型为什么能做到这些benchmark?

更关键的问题是:

Sapient是否提前验证了一条下一代推理模型值得认真对待的新路线?

知识不等于智能,CoT也不等于思考

现在的推理模型,很多时候像是在“边说边想”。

Chain-of-Thought把推理过程写成一串token,让模型一步一步输出中间过程。

这当然有用,但问题也很明显:

Token越来越长,账单越来越高;中间一步错了,后面就可能一路错下去;更关键的是,推理过程被绑定在语言表面,模型很容易学到“像推理的文本”,却不一定真的掌握了“推理的结构”。

HRM问的是一个更激进的问题:推理为什么一定要写出来?

人类做很多题,并不是把脑内每一步都说成一句话。我们会在脑子里反复尝试、修正、排除、回退,最后才说出答案。

HRM想做的,正是这件事:把草稿纸从嘴上拿下来,放回模型的脑子里。

这就是latent reasoning,潜空间推理。不是让模型输出更长的思维链,而是让模型在输出之前,在内部状态里完成多轮计算。

这也是Sapient 从一开始押注HRM的原因。

Sapient押注的从来不是“小模型”,而是HRM(Hierarchical Reasoning Model),分层推理模型。

在大多数团队仍然围绕Transformer做参数、数据和训练技巧优化时,Sapient选择把问题推到更底层:

如果智能不是只来自规模扩张,而是来自计算过程的组织方式,那么模型架构本身是否应该被重新设计?

HRM的核心思想,是让模型在输出之前,能够在潜空间中进行多轮、分层、递归的状态更新。

2025年,Sapient推出HRM-Symbolic。

这个模型主要面向数独、迷宫、ARC-AGI等封闭、可验证、强推理任务。这类任务有明确规则、明确状态空间、可验证答案,对组合搜索和多步推理要求极高。

因此,它们非常适合回答第一个问题:

分层递归推理这条架构路线,到底能不能行?

HRM的原始论文里,一个27M参数模型在没有预训练、没有CoT数据、只用约1000个训练样本的情况下,在Sudoku-Extreme、Maze-Hard和ARC-AGI等强推理任务上取得了非常突出的结果。

这一步先回答了一个问题:

在封闭、可验证、强推理任务里,HRM这条路线能不能行?

答案是:能。

但这还不够,因为数独不是语言,迷宫也不是开放世界。

于是HRM-Text回答了第二个更难的问题:

当任务进入自然语言世界,HRM还行不行?

这比简单放大模型更难。

因为语言不是数独。语言更开放、更模糊、更知识密集,输出形式更灵活,训练也更容易不稳定。

所以HRM-Text的意义,不是把HRM-Symbolic放大一点而已。

它是在验证分层递归推理这套架构,能不能进入基础语言模型。

从HRM-Symbolic到HRM-Text,Sapient做的不是一次模型发布,而是一条技术路线的连续推进:

先在封闭推理任务中验证架构假设,再把架构扩展到开放语言环境,同步开放论文、代码、模型权重和训练方法,让这条路线可以被复现、质疑、比较和继续验证。

这也是Sapient应该被放到更重要位置的原因。

它不是在追随行业已有的答案,而是在提前提出问题,并把一个原本可能停留在理论讨论中的方向,推进成了可运行、可开源、可验证的模型系统。

HRM的核心:模型里面长出两个脑区

Scroll for more