Scaling Laws for Neural Language Models

中文翻译：神经语言模型的规模定律或者神经语言模型的扩展规律或者神经语言模型的扩展法则

对应的是大模型的扩展法则。

论文介绍

发表时间与作者：这篇论文发表于2020年1月，由OpenAI的Jared Kaplan、Sam McCandlish、Tom Henighan、Tom B. Brown、Dario Amodei等人共同撰写。
研究背景：随着计算资源的快速增长，研究人员开始构建越来越大的语言模型。然而，在该论文之前，人们对于模型规模、训练数据量和计算预算之间的关系缺乏系统性的理解。
解决问题：该论文主要解决了语言模型性能如何随着模型大小、数据集大小和训练计算量的增加而变化的问题，为大规模语言模型的设计和训练提供了理论基础。
解决效果：研究团队发现了惊人的简单幂律关系，证明了模型的交叉熵损失与模型规模、数据集大小和计算量之间存在幂律缩放关系。具体来说，他们发现：
- 当增加模型参数量N时，测试损失以L ∝ N^(-0.076)的速率降低
- 当增加数据集大小D时，测试损失以L ∝ D^(-0.095)的速率降低
- 当增加计算量C时，测试损失以L ∝ C^(-0.050)的速率降低
影响力：截至2025年，该论文已被引用超过3000次，成为大语言模型研究和开发的奠基性工作之一。这项研究直接影响了GPT-3及后续大型语言模型的设计决策。

论文最重要的发现是神经网络语言模型的性能（以交叉熵损失衡量）与三个关键因素之间存在稳定的幂律关系：

这些幂律关系在多个量级的范围内都保持稳定，从小型模型（百万参数级别）到大型模型（数十亿参数级别）都适用。

论文还探讨了在固定计算预算下，如何最佳地分配资源：

研究团队训练了多达1750亿参数的Transformer模型，具体实验包括：

通过这些实验，他们验证了缩放规律的稳定性和泛化性，并发现这些规律不仅适用于Transformer架构，也适用于LSTM等其他模型架构。

这项研究的实际应用价值主要体现在以下几个方面：

这篇论文的重要性不仅在于其对特定模型的研究，更在于揭示了神经语言模型性能改进的基本规律，为整个领域的发展奠定了实证基础和理论框架。它也是理解为什么大语言模型能够展现出惊人能力的关键文献之一。