跳转到内容

Deep Residual Learning for Image Recognition(ResNet)

论文在线阅读

论文介绍

1. 论文发表时间与主要作者

  • 论文于2015年12月发布在arXiv,2016年CVPR会议正式发表
  • 主要作者:Kaiming He、Xiangyu Zhang、Shaoqing Ren、Jian Sun,均来自微软亚洲研究院(MSRA)

2. 论文背景与解决的问题

  • 在深度神经网络不断加深的趋势下,发现网络层数增加后,训练误差反而上升,出现了“退化”现象
  • 传统堆叠卷积层的方式难以训练非常深的网络,梯度消失/爆炸和优化困难成为瓶颈
  • 论文提出“残差学习”框架(Residual Learning),通过引入“残差块”(Residual Block)和“跳跃连接”(Skip Connection),让网络更容易训练,极大缓解了深层网络的退化问题

3. 解决效果

  • 在ImageNet 2015分类任务上,ResNet-152取得了3.57%的top-5错误率,刷新了当时的世界纪录
  • 在COCO目标检测、ImageNet定位等多项任务上,ResNet均取得了SOTA(state-of-the-art)成绩
  • ResNet-152的参数量和计算量远超VGG,但训练和测试误差都更低

4. 引用量与影响力

  • 截至目前,该论文引用量已超过10万次,是计算机视觉和深度学习领域最具影响力的论文之一
  • ResNet成为后续各种网络(如DenseNet、ResNeXt、Transformer等)的基础模块,被广泛应用于CV、NLP、医学影像等多个领域

论文主要内容概括

1. 残差学习思想

  • 传统网络直接学习期望映射H(x),ResNet让网络学习残差F(x)=H(x)-x,即输出为F(x)+x
  • 通过“恒等映射”跳跃连接,信息和梯度可以直接跨层传递,极大缓解了深层网络的训练难题

2. 残差块结构

  • 每个残差块包含2~3个卷积层,输入x直接加到输出上
  • 如果输入输出维度不一致,用1x1卷积调整维度
  • 这种结构可以堆叠到几十、上百甚至上千层

3. 主要实验结果

  • 在ImageNet上,ResNet-34比VGG-19更深但误差更低
  • ResNet-152在ImageNet top-5错误率为3.57%,大幅领先同期模型
  • 在COCO目标检测、ImageNet定位等任务上,ResNet也取得了最佳成绩
  • 消融实验显示,残差结构对训练超深网络至关重要

4. 结论与影响

  • ResNet极大推动了深度神经网络的发展,使得“千层网络”成为可能
  • 残差思想被广泛借鉴,成为现代深度学习模型的标配
  • 论文开创了“深则强”的新范式,影响力持续至今

一句话总结:ResNet用简单的残差结构解决了深层网络难以训练的难题,彻底改变了深度学习的发展轨迹,是CV和AI领域的里程碑之作。