Scaling law原作曝bug,万亿算力全白烧新智元
DeepMind研究员指出,OpenAI最初的Scaling Law错误引导 AI 行业长期“重参数、轻数据”,让大量模型训练不足、算力配置失衡,全球或因此浪费了数年研发时间和海量 GPU 资源。后续研究证实,模型与数据应同步放大,此前方向可能浪费了海量算力。
OpenAI误导了整个AI圈好几年!
过去五年,整个AI行业都被Scaling Law推着往前冲。
奥特曼坚信AGI的底气就来自这条曲线。
现在,有人站出来说:这条曲线,一开始就错了。
不是事后诸葛。说这话的,是当年就在OpenAI做大模型优化的研究员Diogo Almeida。
刚刚,他发出一篇博客,标题冷得发指——《Scaling Laws, Honestly》。
开头一句直接把话说死:最初那版scaling law是错的,因为存在一个bug。
传送门:https://www.completeskeptic.com/p/scaling-laws-honestly
DeepMind那位以扩散模型封神的Sander Dieleman,转头就在推特上把它顶了上去,说这是一段有意思的LLM往事:
原始scaling law因为一个bug而错了,大概率害得业界在一堆「体量过大、训练不足」的模型上,白白烧掉了海量算力。
一个bug,烧掉两年。
当bug被撕开,我们看到的,不仅是算力的黑洞,更是一条被语言本身重塑的、远比想象中更深刻的智能边界。
Scaling Law竟是LLM版「地心说」
2020年,OpenAI给出结论:在固定的算力预算下,你应该优先把模型做大,而不是拿更多数据去喂它。
用公式说,最优参数量正比于算力的0.73次方——参数,是那个更该猛冲的变量。
这句话,直接定义了GPT-3那一代的长相。堆参数。往死里堆。1750亿。
它告诉全世界的开发者:别问,问就是堆参数;只要你把模型做得足够大,神迹就会发生。
两年后,DeepMind甩出Chinchilla,把这个结论掀了个底朝天:模型和数据,应该差不多同等重要地一起放大,大约每个参数配20个token才划算。
他们训了一个700亿参数的Chinchilla,喂了1.4万亿token——体量不到GPT-3的一半,数据是它的四倍多。
结果,同样的算力预算,全面反超2800亿参数、却只喂了3000亿token的Gopher。
翻译成人话:同样一笔钱,一个把它养成了"虚胖"的壮汉,一个把它练成了精瘦的拳手。
拖更三年,北大校友翁荔深入探讨了后续研究中对两者差异的主流解释,即差异在于他们计算参数总数的方式。
而这还没完。就连「正确」的那个Chinchilla,自己也不干净。
2024年,Besiroglu等人把Chinchilla原文的数据点扒出来重跑,发现它自己那套拟合里也藏着bug:
优化器里的loss尺度设得过高,把Huber损失按样本求了平均、而不是求和,导致拟合过早终止。
纠正bug的论文,自己带着另一个bug。
到这儿,那句被无数人挂在嘴边的「第一性原理」,忽然有点站不住了。
所谓Scaling Law,从来就不是牛顿三定律那种铁打的物理规律,它只是一条经验拟合出来的曲线。
当Diogo Almeida认为真相并非如此,不是方法不一样,「是最初那版scaling law本身有个bug。」
OpenAI三招骗了全球AI同行?
要制造一个让全球AI集体相信的谎言,只需要三步。
第一步:囚禁数据。
OpenAI论文给所有模型——不管它是还在学习走路的孩子(小模型),还是已经长成巨人的模型,喂了完全相同的「饭量」。大约130B tokens数据。
小模型因此被「喂饱」甚至「撑到」,而真正需要海量数据来填满其容量的大模型,却在同一token预算下严重营养不良。


