跳转到内容

Chain of Thought Prompting

论文在线阅读

中文翻译:思维链提示

论文介绍

  • 发表时间与作者:这篇论文由Google研究团队于2022年1月在arXiv上首次发表,后于2022年5月更新,并在NeurIPS 2022会议上正式发表。主要作者包括Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Brian Ichter, Fei Xia, Ed Chi, Quoc Le 和 Denny Zhou。
  • 研究背景:在该研究之前,虽然大型语言模型在许多任务上表现出色,但在需要复杂推理的任务(如算术、常识推理和符号推理)上表现仍然较差。传统的"few-shot"提示方法只给出问题和答案的示例,没有展示推理过程,限制了模型的推理能力。
  • 解决问题:论文提出了"思维链"(Chain of Thought, CoT)提示方法,通过在示例中包含完整的推理过程,引导大型语言模型学会一步步思考,从而解决复杂推理问题。这种方法旨在激发模型的推理能力,使其能够处理多步骤的复杂问题。
  • 解决效果:实验结果令人印象深刻。在算术推理任务上,使用CoT提示的PaLM 540B模型在GSM8K基准测试上的准确率从17.9%提升到56.8%;在常识推理任务上,CoT将准确率从74.4%提升到92.9%;在符号推理上也有显著提升。量化数据显示,CoT平均提高了大模型在复杂推理任务上的表现约30-40个百分点。
  • 影响力:截至2025年初,这篇论文已被引用超过5000次,是大型语言模型提示工程领域最具影响力的工作之一。CoT已成为使用大型语言模型解决复杂问题的标准技术,被广泛应用于学术研究和商业产品中。它启发了一系列后续工作,如"Zero-shot CoT"和"Self-consistency"等,彻底改变了人们使用和评估大型语言模型的方式。

论文主要内容概括

思维链提示的核心思想

CoT提示的核心思想非常直观:不仅向模型展示问题和答案,还要展示获得答案的完整推理过程。具体来说:

  1. 传统few-shot提示

    问题: 小明有5个苹果,吃了2个,又买了3个,现在有几个苹果?
    答案: 6个
    
    问题: [新问题]
    答案:
  2. 思维链提示

    问题: 小明有5个苹果,吃了2个,又买了3个,现在有几个苹果?
    思考: 小明开始有5个苹果。他吃了2个,所以剩下5-2=3个。然后他又买了3个,所以现在有3+3=6个苹果。
    答案: 6个
    
    问题: [新问题]
    思考:

这种简单的改变使模型能够学习并模仿人类的推理过程,大大提高了解决复杂问题的能力。

关键实验与发现

论文通过一系列实验展示了CoT提示的有效性:

  1. 算术推理

    • 在GSM8K(小学数学问题集)上,CoT使PaLM 540B的准确率从17.9%提升到56.8%
    • 在SVAMP数据集上,准确率从57.1%提升到86.0%
    • 对于最大的PaLM模型,CoT带来的提升相当于模型规模增加100倍
  2. 常识推理

    • 在CommonsenseQA上,准确率从74.4%提升到92.9%
    • 在StrategyQA上,准确率从54.3%提升到74.9%
  3. 符号推理

    • 在编程问题上的准确率显著提升
    • 日期操作、列表排序等任务也有明显改进
  4. 规模效应

    • CoT的效果随模型规模增大而显著提升
    • 在小于约60B参数的模型上效果有限
    • 显示出明显的涌现性质:只有足够大的模型才能充分利用CoT

思维链为何有效

论文分析了CoT提示有效的几个关键原因:

  1. 分解复杂问题

    • 将大问题分解为可管理的子问题
    • 允许模型一步步构建解决方案
  2. 中间推理的表达

    • 使模型能够明确表达推理的中间步骤
    • 减少了"跳跃式"推理的错误
  3. 引导推理方向

    • 为模型提供解决问题的"思考框架"
    • 减少偏离正确推理路径的可能性
  4. 涌现能力的激发

    • 激活了大型模型潜在但未被常规提示方法利用的能力
    • 与模型的规模化训练过程中所学到的推理模式相匹配

局限性与挑战

论文也坦率地讨论了CoT的局限性:

  1. 规模依赖性

    • 只有足够大的模型(一般>60B参数)才能有效利用CoT
    • 小型模型可能会产生看似合理但实际错误的推理
  2. 示例依赖性

    • CoT的效果受示例质量和相关性的影响
    • 不良示例可能导致错误的推理模式
  3. 推理路径多样性

    • 不同问题可能需要不同类型的推理
    • 单一的CoT模式可能不适用于所有问题类型
  4. 计算效率

    • 生成完整推理链需要更多的计算资源
    • 增加了推理时间和token消耗

后续发展与扩展

论文最后探讨了几个重要的扩展方向,这些后来都发展成为了重要的研究分支:

  1. Zero-shot CoT

    • 使用"让我们一步步思考"等简单提示词激发模型生成推理链
    • 无需具体示例也能引导推理过程
  2. Self-consistency

    • 生成多个推理链,通过多数投票选择最终答案
    • 显著提高推理准确性
  3. 推理验证

    • 使用模型自我检查推理步骤的正确性
    • 识别并修正推理中的错误

主要结论

论文的主要结论包括:

  1. CoT是提升大型语言模型推理能力的有效方法,特别是在复杂算术、常识和符号推理任务中。

  2. CoT的效果与模型规模密切相关,展现出明显的涌现特性,只有足够大的模型才能有效利用这种方法。

  3. 显式推理过程使模型输出更可解释,不仅提供了答案,还展示了推导过程,增强了可信度。

  4. CoT揭示了大型语言模型中潜在但未被充分利用的能力,表明适当的提示设计可以激发模型的隐含能力。

  5. CoT提供了一种评估模型复杂推理能力的新范式,超越了简单的答案准确性度量。

实际应用与意义

思维链提示技术的实际应用和意义极为广泛:

  1. 增强AI系统的问题解决能力

    • 使ChatGPT、Claude、Gemini等系统能够解决复杂的多步骤问题
    • 提高教育、科研、编程等领域AI辅助解决方案的质量
    • 为数学、逻辑和科学推理提供更可靠的AI支持
  2. 提升推理的可解释性

    • 使用户能够理解AI如何得出特定结论
    • 提高高风险领域(如医疗诊断、金融分析)AI应用的透明度
    • 便于识别和纠正推理中的错误
  3. 教育应用

    • 为学生提供详细的问题解决思路
    • 展示数学和逻辑问题的完整解题过程
    • 作为教学助手解释复杂概念
  4. 提示工程的革新

    • 开创了一种新的提示设计范式
    • 启发了众多新的提示技术(如自问自答、思维树等)
    • 改变了人们与大型语言模型交互的方式
  5. 研究与评估意义

    • 提供了评估语言模型推理能力的新方法
    • 揭示了大型语言模型的涌现能力
    • 推动了对AI系统认知和推理研究的发展

CoT的最深远意义在于,它不仅是一种技术方法,更是一个概念上的突破,表明通过适当的交互,我们可以引导AI系统表现出更高级的认知能力。它挑战了我们对AI系统能力的传统理解,证明了这些系统不仅能记忆和复现,还能在适当引导下进行复杂的推理。

从更广泛的角度看,CoT代表了人机协作解决复杂问题的一个新模型:人类提供思考的框架和方向,AI在这个框架内发挥其强大的计算和推理能力。这种协作模式可能是未来AI系统最有价值的应用方式之一。