Hinton最新透露:AI的下一个数据源林叔说事
深度学习教父 Geoffrey Hinton 近日在一段视频中直言:AI 未必被人类数据锁死。AlphaZero 靠自我博弈创造了无限训练数据,数学也是同理——他相信大语言模型最终也会走上这条路。从 AlphaGo Zero 以 100:0 碾压前代冠军,到 AlphaProof 拿下 IMO 银牌,DeepMind 已经反复证明:不靠人类数据,AI 照样能变强。但 LLM 能复制这个奇迹吗?关键卡在一个东西上:验证器。
「它们可以生成无限数据,不需要任何外部输入」
最近,X 用户 Haider(@haider1)发布了一段约 42 秒的 Hinton 视频片段。
在这段视频中,这位图灵奖得主、深度学习教父直接点明了一个很多人一直在回避的问题:AI 继续变强,到底还需不需要人类数据?
Hinton 的回答很干脆。他以 AlphaGo 和 AlphaZero 为例:
"If you look around for what AI systems don't have any problems with data limits, one example is AlphaGo, Alpha0, where they're playing games."
「如果你看看哪些 AI 系统不受数据上限困扰,一个例子就是 AlphaGo、AlphaZero——它们在下棋。」
"They play against themselves… they can generate infinite amounts of data. They don't need any external data put in."
「它们和自己对弈……可以生成无限量数据,不需要外部输入。」
▲ Haider(@haider1)在 X 上发布的 Hinton 视频片段
然后他把话题引向数学:
"Mathematics is kind of a closed system. You can make conjectures, see if you can prove them… with no external input of data."
「数学某种程度上是一个闭合系统。你可以提出猜想,尝试证明……不需要外部数据输入。」
最后,他给出了自己的判断:
"Those kinds of systems can run all the time and get smarter and smarter. And I believe that's going to happen with large language models eventually."
「这类系统可以一直运行,越来越聪明。我相信大语言模型最终也会如此。」
42 秒,Hinton 画了一条清晰的路线图:从棋类的自我博弈,到数学的闭环验证,最终指向 LLM 的未来。
AlphaGo Zero:100 比 0 碾压前代,全程零人类数据
Hinton 提到的第一个例子,已经被 DeepMind 用论文和实验反复验证。
2017 年,DeepMind 在 Nature 上发表了 AlphaGo Zero。这个系统和之前的 AlphaGo 有一个根本区别:它完全不用人类棋谱。
论文摘要写得明明白白:
"An algorithm based solely on reinforcement learning, without human data, guidance or domain knowledge beyond game rules."
「仅基于强化学习,不使用人类数据、指导或游戏规则之外的领域知识。」
结果?从白纸开始的 AlphaGo Zero,以 100:0 的比分击败了之前战胜世界冠军的 AlphaGo。
▲ Nature 论文《Mastering the game of Go without human knowledge》
论文里还有一处值得注意:
"AlphaGo becomes its own teacher."
「AlphaGo 成为了它自己的老师。」
一年后,DeepMind 把这套逻辑推广到了更多棋类。AlphaZero 作为一个单一系统,从零开始学会了国际象棋、将棋和围棋:
"An untrained neural network plays millions of games against itself via a process of trial and error called reinforcement learning."
「一个未经训练的神经网络通过与自己进行数百万局对弈,用试错式强化学习来学习。」
▲ Google DeepMind AlphaZero 官方博客
这里的核心在于:棋盘环境规则明确,胜负可判定,系统可以无限生成对弈数据。人类棋谱反而成了束缚——AlphaZero 不用人类棋谱,意味着它不被人类惯例所限制。
数学:下一个被攻破的闭合系统
如果说棋类是 Hinton 类比的起点,那数学就是他指向的下一站。
2024 年 1 月,DeepMind 发布了 AlphaGeometry,专攻几何问题。这个系统面临的核心挑战和 AlphaGo 当年一样:训练数据不够。
DeepMind 的解法同样激进——自己造数据:
"By developing a method to generate a vast pool of synthetic training data - 100 million unique examples - we can train AlphaGeometry without any human demonstrations, sidestepping the data bottleneck."
「通过开发一种生成海量合成训练数据的方法——1 亿个独特样例——我们可以在不用任何人类演示的情况下训练 AlphaGeometry,从而绕开数据瓶颈。」
▲ Google DeepMind AlphaGeometry 官方博客
1 亿个合成样例,零人类演示。数据瓶颈就这样被绕过去了。
但 AlphaGeometry 的突破点在于它的架构:神经语言模型负责"直觉",符号推理引擎负责"检验"。生成的每一步推导,都要经过形式逻辑的审核。
半年后,DeepMind 更进一步。2024 年 7 月,AlphaProof 亮相,直接挑战国际数学奥林匹克(IMO)——6 道题做出 4 道,达到银牌水平。
"AlphaProof is a system that trains itself to prove mathematical statements in the formal language Lean."
「AlphaProof 在 Lean 形式语言中训练自己证明数学命题。」
▲ Google DeepMind AlphaProof 在 IMO 中达到银牌水平
AlphaProof 的路线非常清晰:预训练语言模型 + AlphaZero 式强化学习 + Lean 形式化验证。模型提出证明,Lean 检查对不对。对了就强化,错了就调整。
DeepMind 在博客中点出了关键:
"Formal languages offer the critical advantage that proofs involving mathematical reasoning can be formally verified for correctness."
「形式语言的关键优势在于:涉及数学推理的证明可以被形式化地验证其正确性。」
这就是 Hinton 说"数学是闭合系统"的底层逻辑:有了形式化验证器,模型的输出可以被机器自动判定对错。和棋盘上的胜负判定如出一辙。
验证器:这条路线的真正门槛
Hinton 的判断在社区里引发了明显分歧。
支持者认为,一旦模型能自己生成并验证数据,scaling 就不再依赖互联网文本。有开发者总结得很到位:
"For LLMs the missing piece is strong verifiers: math, code, simulators."
「对 LLM 来说,缺少的就是强验证器:数学、代码、模拟器。」
但边界也同样明显。
有人指出,数学和棋类共享一个多数真实世界任务不具备的东西:内置的验证函数。棋有规则和胜负;形式化数学有 proof checker。但现实世界的政策制定、商业决策、社交互动、科学实验——没有这么便宜、准确、即时的反馈函数。
还有人提出了更尖锐的问题:模型能无限生成真命题,但真命题和有价值的命题之间隔着巨大鸿沟。系统可以产出十亿个正确的定理,其中可能没有一个有趣——方向感、研究价值、创新性,这些仍然需要外部评价标准。
更根本的质疑在于:AlphaGeometry、AlphaProof 都是高度专用的系统,配备了符号推理引擎、形式语言和精心设计的强化学习流程。从这类专用系统到通用聊天 LLM,中间的鸿沟远比表面上看起来大得多。
合成数据本身不难生成,难的是判断这些数据到底在提升推理能力,还是在强化错误。


