Deep Residual Learning for Image Recognition（ResNet）

论文在线阅读

论文介绍

1. 论文发表时间与主要作者

论文于2015年12月发布在arXiv，2016年CVPR会议正式发表
主要作者：Kaiming He、Xiangyu Zhang、Shaoqing Ren、Jian Sun，均来自微软亚洲研究院（MSRA）

2. 论文背景与解决的问题

在深度神经网络不断加深的趋势下，发现网络层数增加后，训练误差反而上升，出现了“退化”现象
传统堆叠卷积层的方式难以训练非常深的网络，梯度消失/爆炸和优化困难成为瓶颈
论文提出“残差学习”框架（Residual Learning），通过引入“残差块”（Residual Block）和“跳跃连接”（Skip Connection），让网络更容易训练，极大缓解了深层网络的退化问题

3. 解决效果

在ImageNet 2015分类任务上，ResNet-152取得了3.57%的top-5错误率，刷新了当时的世界纪录
在COCO目标检测、ImageNet定位等多项任务上，ResNet均取得了SOTA（state-of-the-art）成绩
ResNet-152的参数量和计算量远超VGG，但训练和测试误差都更低

4. 引用量与影响力

截至目前，该论文引用量已超过10万次，是计算机视觉和深度学习领域最具影响力的论文之一
ResNet成为后续各种网络（如DenseNet、ResNeXt、Transformer等）的基础模块，被广泛应用于CV、NLP、医学影像等多个领域

论文主要内容概括

1. 残差学习思想

传统网络直接学习期望映射H(x)，ResNet让网络学习残差F(x)=H(x)-x，即输出为F(x)+x
通过“恒等映射”跳跃连接，信息和梯度可以直接跨层传递，极大缓解了深层网络的训练难题

2. 残差块结构

每个残差块包含2~3个卷积层，输入x直接加到输出上
如果输入输出维度不一致，用1x1卷积调整维度
这种结构可以堆叠到几十、上百甚至上千层

3. 主要实验结果

在ImageNet上，ResNet-34比VGG-19更深但误差更低
ResNet-152在ImageNet top-5错误率为3.57%，大幅领先同期模型
在COCO目标检测、ImageNet定位等任务上，ResNet也取得了最佳成绩
消融实验显示，残差结构对训练超深网络至关重要

4. 结论与影响

ResNet极大推动了深度神经网络的发展，使得“千层网络”成为可能
残差思想被广泛借鉴，成为现代深度学习模型的标配
论文开创了“深则强”的新范式，影响力持续至今

一句话总结：ResNet用简单的残差结构解决了深层网络难以训练的难题，彻底改变了深度学习的发展轨迹，是CV和AI领域的里程碑之作。