GPT之父：只用上世纪数据训AI，居然也会写Python量子位

一个生活在1931年之前，在训练数据里没见过任何一台计算机，跨越了将近一个世纪的AI——

居然写出了Python代码？？！！

家人们，这真这不是科幻小说……

模型名叫talkie-1930-13b.

操盘手是AI研究员Nick Levine、多伦多大学副教授David Duvenaud，以及大家熟悉的那位——真·GPT系列之父Alec Radford。

该模型训练数据有一条铁律，那就是1931年1月1日之后的任何一个字都不！准！进！

它不知道电视机、互联网为何物，它的世界，永远停在了1930年12月31日的午夜。

然鹅，最最最最魔幻的事儿来了，团队成员发现：

这个本不该知道罗斯福新政的AI，却把新政立法说得头头是道，连年份都报得出来的内种？？

更离大谱的是，当团队扔给它一道Python编程题时，这个跨越了将近一百年的过去之灵，竟然写出了它人生中的第一行Python？？

一个连计算机都没听过的AI，跨越百年写代码，这事网友们可坐不住了。

直接一个脑洞瞬间开闸，下面这位小哥连「穿越提问清单」都已经想好了，疯狂想尝试ing：

我到底睡醒了没，AI，真能跨越时空了？？

一个生活在1931年之前的老式儿模型

一个在1931年之前生活的模型，上知天文下知地理，还会编程，那咱高低得研究研究。

事实上，talkie是一个130亿参数的模型，它在2600亿tokens的1931年之前的英文文本上训练而成——

训练样本包括但不限于书籍、报纸、期刊、科学杂志等等。

从狄更斯到马克吐温，从爱因斯坦那年代的物理论文到百年前的烹饪书和礼仪手册，全都被打包喂了进去！！！

之所以选择1930年作为模型的知识截止点，也是有说法的，因为这是美国版权法中作品进入公有领域的边界～

那问题来了，为啥Alec Radford想做这么个项目呢？

事实上Radford及其团队想知道——

如果只让一个模型阅读1931年之前的所有英文文本，它会如何思考、如何对话、如何预测未来。

模型被时代发展震惊到眩晕瘫坐

第一个发现，就是模型被时代发展「震撼到了」的曲线图——

团队从《纽约时报》的On This Day栏目里翻出了近5000个历史事件，一股脑儿全喂给了talkie，然后盯着屏幕看——这老兄对每件事到底有多「没料到」。

结果一条相当戏剧性的曲线就这么出来了：

1930年之前：talkie读得行云流水，惊讶值稳如老狗。（talkie：嗯嗯，这些事儿俺都门儿清哈）

刚跨过1930年：talkie惊讶值开始悄悄爬升。（talkie：诶？这事儿咋还能这样？）

1950–60年代：晶体管、电视机普及的年代，talkie惊讶值直接陡峭飙升，一柱擎天。（talkie：等会儿，人类上天了？还整出个会动的盒子能放戏？）

再往后嘛——直接佛系平和了。（talkie：眩晕震撼瘫坐，人已懵，您随便吧……）

这波，也是刘姥姥进大观园了——质疑、理解、接受。

这模型还学会了Python

当然，眩晕震撼瘫坐曲线图还不是这次研究中最炸裂的发现，因为团队成员的第二个发现是——

一个没见过电脑的AI，居然学会了写Python？？？

在研究中，团队给talkie扔了一份OpenAI的HumanEval编程测试集。

在prompt里塞几个Python函数当示范例子，然后让talkie看完直接解新题，也就是让模型靠上下文现学现卖～

在这个测试中，团队还顺手把训练过现代互联网数据的同架构talkie-web也拉出来一起测，并画张对比折线图——

（黑线：Vintage LM，灰线：Modern LM）

结果就是一个雷霆暴击，talkie真的解出来了，人家直接把加密函数里的+5改成-5，然后交卷。

是的，只改了一个字符，但答案完全正确……

不仅如此，团队发现一个清晰的趋势，那就是——模型规模越大，能解出来的编程题越多。

换句话说，虽然目前还远不及现代模型，但复古模型的「凭空学代码」的能力也在Scaling Law的作用下稳步爬升。

对此团队也表示，他们希望复古模型能帮整个AI圈搞清楚一个根本问题——LLM到底能泛化到训练数据之外多远。

1930年模型VS2026年模型

老话说得好，有对比才有看头新发现。

为了搞清楚talkie到底有几斤几两，团队还用完全相同的架构和算力，又训练了一个喂现代互联网数据的双胞胎——talkie-web-13b。

并将两个模型放进各种标准LLM评测里打PK，结果可以说甚是微妙：

不出意外，talkie-1930在实际表现上确实落后于现代孪生兄弟。

但是当研究员把那些超出知识范围的题目剔除后（比如互联网、DNA相关的），两者的差距直接缩小一半。

更炸裂的是，在核心语言理解和数学计算任务上，新老模型的表现几乎一样好。