揭秘Scaling Law:从1993年到大模型的AI第一性原理

type
status
date
slug
summary
tags
category
icon
password
网址
在当今由大模型(LLM)主导的人工智能浪潮中,Scaling Laws(扩展定律)几乎被视为构建更强AI的“第一性原理”。它简洁地揭示了模型性能与数据、算力和参数规模之间的幂律关系,成为指导OpenAI等顶尖机构研发ChatGPT这类产品的核心法则。然而,当OpenAI总裁Greg Brockman转发一则关于其起源的“AI考古”发现时,整个科技界都为之震动:这一深刻洞见,其源头或许可以追溯到30多年前。
这不仅仅是一次简单的历史回顾,更是一场关于人工智能发展根本驱动力的深刻揭秘。今天,让我们一起拨开时间的迷雾,深入解读这一跨越数十年的伟大发现。

Scaling Law:大模型时代的第一性原理

在我们深入历史之前,有必要先明确什么是Scaling Law。简单来说,它是一个经验性观察结论:只要你持续增加模型的参数数量、投入的计算资源和训练数据的规模,模型的性能(通常以损失函数的值来衡量)就会以一种可预测的方式持续提升。
这个定律之所以重要,是因为它为AGI(通用人工智能)的探索提供了一条看似简单粗暴却极其有效的路径。它告诉研究者们,与其绞尽脑汁设计更复杂的模型架构,不如将更多精力投入到“大力出奇迹”的规模化扩展上。这正是近年来大模型竞赛愈演愈烈的根本原因,也是ChatGPT能够展现出惊人能力的基础。

1993年的回响:贝尔实验室的惊人预见

长期以来,许多人认为Scaling Law是2020年由OpenAI正式提出的概念。但近期Meta研究员Jack Morris的发现,将历史的指针拨回到了1993年。他指出,贝尔实验室的一篇NeurIPS顶会论文《Learning Curves: Asymptotic Values and Rate of Convergence》实际上已经系统性地探索了这一规律。
这篇论文在当时就算力极其有限的背景下,前瞻性地研究了分类器性能与训练数据量之间的关系。研究者们通过在不同大小的数据集和模型上进行实验,敏锐地观察到:模型的错误率随着训练数据量的增加,在对数坐标上呈现出一条近似直线,这本质上就是幂律关系的体现。
论文中的结论在今天看来依然振聋发聩:“如果我们的预测方法能够对网络的测试误差做出良好的定量估计,我们就可以决定是否应该对新架构进行为期三周的训练。” 这清晰地表明,他们不仅发现了Scaling Law的现象,更理解了其作为预测工具的巨大价值——这正是今天OpenAI等机构决定是否要投入巨资训练下一个万亿参数模型的决策依据。
正如Greg Brockman所言,这些跨越了数十年和多个数量级考验的结果,真正揭示了深度学习的根本。

群星闪耀:缔造历史的传奇学者们

这篇30多年前的论文之所以能有如此惊人的洞察力,离不开其背后星光熠熠的作者团队。他们每一位都是机器学习和相关领域的泰山北斗:
  • Corinna Cortes:论文一作,与另一位作者Vladimir Vapnik共同提出了现代支持向量机(SVM),并参与构建了著名的MNIST数据集。她被誉为“国宝级”研究员,现领导Google Research NY。
  • Vladimir Vapnik:统计学习理论(SLT)的奠基人之一,提出了著名的VC维理论,其著作是机器学习领域的里程碑。
  • Lawrence D Jackel:时任贝尔实验室部门负责人,与图灵奖得主Yann LeCun合作发表了多篇包括反向传播在内的重要论文。
  • Sara A. Solla:一位物理学家和神经科学家,在神经网络剪枝(Optimal Brain Damage)等领域做出了开创性工作。
  • John S. Denker:一位涉猎广泛的“疯狂科学家”,在计算机安全、神经网络乃至航空领域都有建树,其事迹甚至被改编成了电影。
正是这些跨学科巨匠的智慧碰撞,才孕育出了如此超越时代的深刻洞见。

历史的更深处:Scaling Law的“史前时代”

贝尔实验室的论文固然是重要的里程碑,但Scaling Law的思想萌芽其实可以追溯到更早的时期。在相关的讨论中,研究者们提供了更多线索:
  • 心理学领域:著名学者Pedro Domingos指出,心理学中对“学习曲线”的研究,早已在探索经验(数据)与能力(性能)之间的关系。
  • 1960年代:Vladimir Vapnik本人在60年代就已经在研究样本大小对学习模型的影响。
  • 1958年:Frank Rosenblatt的开创性论文《The Perceptron》中,已经给出了清晰的学习曲线图示。
  • 1992年:日本神经科学家甘利俊一(Shun-ichi Amari)发表的论文,从理论上证明了一种普适的学习曲线渐进行为,即模型性能与训练样本数成反比关系。
这些“史前”研究表明,Scaling Law并非一次灵光乍现,而是跨越了计算机科学、物理学、心理学等多个学科,经过几代科学家不断观察、实验和理论化的结晶。

总结:从历史尘埃到AGI的指路明灯

从心理学的朴素观察,到感知器的早期实验,再到贝尔实验室的系统性研究,最终由OpenAI等机构在大规模实践中发扬光大,Scaling Law的演进之路本身就是一部浓缩的人工智能发展史。
它告诉我们,科学的伟大突破往往源于对基本规律的长期探索和积累。今天,这条被历史反复验证的定律,正作为最坚实的“路标”,指引着我们向着更强大的LLM乃至AGI迈进。它深刻地影响着AI领域的资源分配、技术路线和未来AI变现的商业模式。
想要获取更多关于大模型AI资讯和前沿Prompt技巧的深度内容,请持续关注AI门户网站 https://aigc.bar,与我们一同见证AI的未来。
Loading...

没有找到文章