The Bitter Lesson

中文翻译：苦涩的教训

论文介绍

基本信息

发表时间：2019年3月13日
作者：Richard S. Sutton（理查德·萨顿），被誉为"强化学习之父"，是DeepMind的杰出研究科学家，阿尔伯塔大学计算机科学教授，加拿大计算机科学家。
原文链接：http://www.incompleteideas.net/IncIdeas/BitterLesson.html

论文背景与问题

这篇论文是在人工智能研究70年历史的基础上，对AI研究方向的一次深刻反思。Sutton观察到，AI研究长期以来走过的最大弯路就是过于重视人类既有经验和知识，而忽视了利用大规模算力的通用方法。在当时，随着深度学习的兴起和大模型的萌芽，这一观点显得尤为前瞻。

论文旨在解决AI研究中的一个根本性问题：研究者们倾向于将人类对特定领域的知识和理解编入算法中，而不是依赖能够随着计算能力增长而不断扩展的通用学习方法。

解决效果

Sutton通过多个领域的案例证明了他的观点：

计算机国际象棋：1997年击败世界冠军卡斯帕罗夫的Deep Blue是基于大量深度搜索，而非人类对象棋特殊结构的理解。
计算机围棋：同样的模式在围棋领域重演，最初研究者试图避免搜索而利用人类知识，但最终AlphaGo通过大规模搜索和自我对弈学习取得了突破性成功。
语音识别：20世纪70年代，基于统计学的隐马尔可夫模型(HMMs)战胜了基于人类知识的方法，后来深度学习进一步推动了这一领域的发展。
计算机视觉：早期方法关注边缘检测、广义圆柱体或SIFT特征，但现代深度学习神经网络仅使用卷积和某些不变性概念就取得了更好的效果。

影响力

虽然没有找到确切的引用量数据，但这篇论文在AI领域有着极其重要的影响力：

被OpenAI等顶尖AI研究机构的工程师视为必读经典
被认为是通往AGI路径的重要理论基础之一
在大模型时代，其核心观点（利用算力、大数据和通用算法）被证明是正确的
成为了现代AI发展的指导思想之一
有人将其与Transformer论文《Attention is All You Need》并列看待
据报道，OpenAI的工程师每日工作时间线中也提到了背诵这篇论文

值得注意的是，这篇论文的思想可以追溯到更早。Sutton本人确认，他在20多年前写的一篇未完成博客就是《苦涩的教训》的原型，这表明他对这一思想的思考由来已久。

论文主要内容概括

《苦涩的教训》的核心论点是：在人工智能研究中，利用计算能力的通用方法最终是最有效的方法，而且优势很大。这一现象可以归因于摩尔定律，即每单位计算成本持续指数级下降。

Sutton指出，大多数AI研究都假设智能体可用的计算能力是恒定的，在这种情况下，利用人类知识是提高性能的唯一方法。但从长期来看，可用的计算量必然会大大增加，这使得通用学习方法变得更加有效。

论文中，Sutton将AI研究中的方法分为两类：

基于人类知识的方法：利用人类对特定领域的理解和知识，如在国际象棋中利用人类对棋局结构的理解，在语音识别中利用对音素、单词和人类声道的理解。
基于通用计算的方法：主要是搜索和学习，这两种技术能够充分利用大规模计算资源。

Sutton认为，这两种方法本不需要对立，但在实践中它们往往相互冲突。研究者花在一种方法上的时间就是没有花在另一种方法上的时间。更重要的是，基于人类知识的方法往往会使算法变得复杂，不太适合利用计算能力的增长。

论文通过回顾AI研究历史中的几个关键案例，展示了这一"苦涩的教训"：

计算机国际象棋：1997年，IBM的Deep Blue通过大量深度搜索击败了世界冠军卡斯帕罗夫。当时，许多计算机国际象棋研究人员对此感到失望，因为他们一直致力于利用人类对国际象棋特殊结构的理解。这些研究人员辩解说，"粗暴的"搜索可能这次赢了，但这不是一种通用的策略，也不是人类下棋的方式。然而，历史证明，基于搜索的方法确实更有效。

计算机围棋：在围棋领域，同样的模式重演，只是晚了20年。最初，研究人员试图避免使用搜索，而是利用人类知识或游戏的特殊特性。但所有这些努力最终都被证明是无效的，甚至是有害的。一旦大规模搜索被有效应用，加上通过自我对弈学习价值函数的方法，围棋AI取得了突破性进展。

语音识别：20世纪70年代，DARPA赞助了一场语音识别竞赛。参赛者使用了各种基于人类知识的方法，包括对单词、音素和人类声道的理解。然而，基于隐马尔可夫模型的统计方法最终胜出。这导致了自然语言处理领域的重大变革，统计和计算逐渐主导了这一领域。近年来，深度学习在语音识别中的兴起是这一趋势的最新发展。

计算机视觉：早期的计算机视觉方法将视觉理解为寻找边缘、广义圆柱体或基于SIFT特征进行处理。但现在，这些方法都被抛弃了。现代深度学习神经网络仅使用卷积和某些不变性概念，就能取得更好的效果。

Sutton总结道，这一"苦涩的教训"基于以下历史观察：

AI研究人员经常试图将人类知识构建到他们的系统中
这在短期内总是有帮助的，并且对研究人员来说是个人满意的
但从长远来看，它总会达到一个瓶颈，甚至会阻碍进一步的进展
最终的突破性进展是通过相反的方法——基于搜索和学习的大规模计算

论文的结论是，如果想要在AI领域获得长期的提升，利用算力才是王道。基于人类知识的方法虽然在短期内有效，但从长远来看，它们总会达到瓶颈，甚至会阻碍进一步的进展。真正的突破性进展是通过基于搜索和学习的大规模计算。

这一观点在大模型时代被证明是正确的。现代的大型语言模型和多模态AI系统，如GPT系列、DALL-E、Sora等，都是通过大规模数据和计算资源训练出来的，而不是通过编码人类对语言、图像或视频的理解。这些模型的成功进一步验证了Sutton在《苦涩的教训》中提出的观点。

在AI创业领域，也有人观察到类似的模式正在重演。许多创业公司试图通过精巧的工程设计来提升AI产品的性能，但随着更强大的AI模型的出现，这些工程优化的价值可能会逐渐减少。这再次印证了Sutton的观点：从长期来看，通用方法总是在AI领域胜出。

The Bitter Lesson ​

论文介绍 ​

基本信息 ​

论文背景与问题 ​

解决效果 ​

影响力 ​