ConvNeXt 系列改进:位置信息补全:ConvNeXt 结合 CoordAtt(坐标注意力),提升密集预测任务表现

张开发
2026/4/19 23:18:47 15 分钟阅读

分享文章

ConvNeXt 系列改进:位置信息补全:ConvNeXt 结合 CoordAtt(坐标注意力),提升密集预测任务表现
一、写在前面:ConvNeXt 的“阿喀琉斯之踵”2022年,Meta AI(FAIR)团队推出ConvNeXt,以纯卷积架构在ImageNet-1K上拿下87.8%的top-1准确率,在COCO目标检测和ADE20K语义分割任务上全面超越Swin Transformer,让整个社区重新认识到卷积网络的潜力。2023年,ConvNeXt V2更进一步,引入FCMAE自监督预训练框架和GRN归一化层,将纯卷积网络的性能天花板再次推高——Huge版本在ImageNet上达到了惊人的88.9% top-1准确率。然而,ConvNeXt系列在密集预测任务(如语义分割、目标检测)上却存在一个不易察觉但影响深远的短板——空间位置信息的“系统性流失”。这个问题并非ConvNeXt独有,而是深度卷积网络在多次下采样后普遍面临的结构性困境:随着网络层数加深,特征图的空间分辨率急剧下降,精细的空间位置信息被不可逆地丢失。对于分类任务而言,知道“图中有一只狗”就够了;但对于密集预测任务,模型必须精确知道“这只狗在图中的哪个像素位置”,空间信息的任何流失都会直接转化为分割边界的模糊和检测框的偏移。ConvNeXt的“现代化改造”——尤其是以7×7深度卷积替代传统3×3卷积——虽然扩大了感受野,却在空间位置信息的细粒度保留上并未提供系统性的解决方案。7×7大核卷积擅长捕获大范围的上下文依赖,但对于“这个像素到底在哪里”这样的位置敏感问题,它并没有给出满意的答案。与此同时,坐标注意力(Coordinate Attention,CoordAtt)作为一种专门针对位置信息建

更多文章