GPT之父把AI扔回1930年:「发明」了Python新智元
你敢信?一个活在95年前的AI,竟写出了Python代码。GPT之父下场,用2600亿Token炼出了一个「老古董」AI。
一个从未见过电脑的AI,竟写出了现代编程语言!
这可不是什么科幻的设定。
就在今天,GPT之父Alec Radford带队发布了震撼全网的「talkie」——
总参数130亿,一个只读过1931年之前旧文献的大模型。
talkie的「世界观」(全部训练数据),被冻结在了1930年12月31日。
那个时代,没有互联网,没有维基百科,更没有任何现代代码。
它读过的最「新」的东西,是近百年前的专利书、科学期刊、礼仪手册和私人书信。
但就是这样一个「活在95年前」的AI,居然能写出Python代码。
没学过编程,却写出了Python,理解了「逆函数」
talkie最炸裂的发现,藏在一组编程测试里。
Alec Radford团队突发奇想,用HumanEval去测试talkie的编程能力——
给它几个Python函数作为上下文示例,然后让它解决新的编程问题。
要知道,talkie的训练数据中,没有任何一行现代代码。连数字计算机的概念,都不存在于它的「知识体系」中。
但结果令人震惊,通过少样本学习,它竟然能写出正确的Python程序。
虽然目前只能完成简单的单行程序,比如两个数相加,或者对上下文示例做微小修改。
Alec Radford:GPT、CLIP、Whisper背后核心大佬
但其中一个案例让人印象深刻:给定一个旋转密码的编码函数encode_shift,它的逻辑是把每个字母在字母表中向后移动5位。
talkie自己写出了对应的解码函数,整个修改只有一个字符:把+5改成了-5,加号换成了减号。
它真正理解了「逆函数」:加密是加,解密就是减」这个逆运算的概念。
传送门:https://talkie-lm.com/chat
2600亿Token,专喂百年前的纸
Alec Radford团队为什么要费这么大劲,手动OCR近百年前的物理文献,来训练一个「老古董」?
因为他们要回答AI领域最核心的一个问题:LLM的能力,到底是推理,还是背诵?
talkie可以写出Python,证明了——
LLM可以用19世纪的知识做推理,并非只是检索。不得不说,这才是真正意义上的「泛化」!
再来看talkie的训练语料库,可以称得上是一个庞大的「考古工程」。
它的训练语料达到了2600亿token,全部来自1931年之前的英语文本,包括书籍、报纸、期刊、科学论文、美国专利、判例法。
要知道,这么多文本皆需要从实体文档扫描并OCR转录。
而选择1930年作为截止日期,原因很实际:这是美国公共版权法(public domain)的分界线。


