文章目录
- 摘要:
- 1、引言
- 2、相关工作
- 3、方法论:复兴DenseNets
-
- 3.1、初步研究
- 3.2 复兴DenseNets
- 3.3 复兴DenseNet(RDNet)
- 4、实验
-
- 4.1、图像分类
- 4.2、零样本图像分类
- 4.3、语义分割
- 4.4、目标检测
- 5、讨论
-
- 5.1、初步研究 - 随机网络实验
- 5.2、输入尺寸对性能的影响
- 5.3、CKA 分析
- 5.4、重新审视随机深度
- 5.5、消融研究
- 6、结论
- 附录
-
- A. 鲁棒性评估
- B. 使用Cascade Mask-RCNN进行目标检测
- C. 进一步的ImageNet准确性与延迟权衡
- D. 我们试点研究的更多细节
- E. 实验设置
-
- E.1 ImageNet 训练
- E.2 下游任务
- E.3 基准测试设置
摘要:
https://arxiv.org/pdf/2403.19588
本文重新探讨了密集连接的卷积网络(DenseNets),并揭示了其在当前主流的ResNet风格架构之上的被低估的有效性。我们认为,DenseNets的潜力被忽视的原因在于未得到充分研究的训练方法以及传统设计元素未能完全展现其能力。我们的初步研究表明,通过拼接实现的密集连接非常强大,证明了DenseNets可以通过复兴来与现代架构竞争。我们系统地改进了次优组件——包括架构调整、块重新设计以及改进的训练策略,旨在拓宽DenseNets并提升内存效率,同时保持拼接的快捷连接。我们的模型采用简单的架构元素,最终超越了Swin Transformer、ConvNeXt和DeiT-III等残差学习谱系中的关键架构。此外,我们的模型在ImageNet-1K数据集上展示了接近最先进的性能,与最新模型在下游任务(如ADE20k语义分割和COCO目标检测/实例分割)上的表现相媲美。最后,我们提供了实证分析,揭示了拼接相较于加法快捷连接的优点,引导了对DenseNet风格设计的重新青睐。我们的代码可在https://github.com/naver-ai/rdnet获取。
1、引言
“ImageNet时刻”由卷积神经网络(ConvNets)的兴起而引发,这一里程碑始于AlexNet[38]的诞生。随后,VGG[62]和GoogleNet[65]进一步凸显了在ConvNets中堆叠多个卷积层的好处。在同一时期,具有划时代意义的架构ResNet[27]及其家族[28,87]脱颖而出,引入了突破性的概念——加法跳跃连接(也称为加法捷径或恒等映射[28]),这使得能够堆叠多达1,000层的网络