即插即用系列 | ECCV 2024 WTConv:利用小波变换实现超大感受野的卷积神经网络

张开发
2026/4/20 3:04:33 15 分钟阅读

分享文章

即插即用系列 | ECCV 2024 WTConv:利用小波变换实现超大感受野的卷积神经网络
论文标题Wavelet Convolutions for Large Receptive Fields论文原文 (Paper)https://arxiv.org/abs/2407.05848代码 (code)https://github.com/BGU-CS-VIL/WTConv哔哩哔哩视频讲解https://space.bilibili.com/57394501?spm_id_from333.337.0.0本论文的完整复现代码即插即用版已更新至专栏即插即用系列代码实践 | ECCV 2024 WTConv利用小波变换实现超大感受野的卷积神经网络目录1. 核心思想2. 背景与动机2.1 文本背景总结2.2 动机图解分析3. 主要创新点4. 方法细节4.1 整体网络架构与数据流4.2 核心模块图解分析4.3 理念与机制总结4.4 图解总结如何解决“动机”中的问题5. 即插即用模块的作用6. 实验部分简单分析7. 获取更多即插即用代码关注 【AI即插即用】1. 核心思想本文提出了一种名为WTConv (Wavelet Transform Convolution)的新型卷积层旨在解决卷积神经网络CNN难以高效获得全局感受野的问题。核心思想是利用级联小波变换Cascade Wavelet Transform将输入特征图分解为不同频率的子带在这些降采样后的频带上执行小卷积操作从而以对数级Logarithmic而非二次方级的参数增长实现了接近全局的有效感受野。WTConv 可以作为现有网络如 ConvNeXt、MobileNet中深度卷积Depth-wise Conv的即插即用替代品显著提升了模型的形状偏置Shape Bias和对图像腐蚀的鲁棒性。2. 背景与动机2.1 文本背景总结在过去几年Vision Transformers (ViTs) 凭借自注意力机制带来的全局感受野在性能上超越了许多 CNN。为了弥补这一差距研究者们尝试增大 CNN 的卷积核例如 RepLKNet 中的 甚至更大。然而这种简单粗暴的“大核”策略面临两个严峻问题参数量爆炸参数量随核大小 呈 二次增长。性能饱和单纯增大核尺寸性能在达到一定程度后不再提升甚至下降且仍然难以达到真正的全局感受野。本文的动机就在于能否利用信号处理工具小波在不引起参数爆炸的前提下让卷积真正拥有全局感受野2.2 动机图解分析看图说话与痛点分析左图 (a) RepLK这是使用单纯大卷积核如 的结果。我们可以看到虽然中心区域亮起但在远离中心的区域边缘响应非常微弱深蓝色。这说明即使加大了核尺寸其实际有效感受野ERF依然是受限的存在明显的局部性局限。中图 (b) SLaK这是使用稀疏大核的方法。相比 RepLK 略有改善但依然存在明显的中心聚焦效应未能覆盖全图。右图 © WTConv (本文方法)这是本文提出的方法。可以看到整张特征图都呈现出明亮的响应且分布均匀。总结这组对比图直观地揭示了现有大核方法的“效率瓶颈”——它们堆叠了大量参数却换不来真正的全局信息交互。而 WTConv 通过频域分解用更少的参数实现了真正的全局感受野完美解决了“大核不一定大感受野”的痛点。3. 主要创新点基于小波的卷积层 (WTConv)提出了一种利用小波变换进行多频率处理的新型层作为深度卷积的通用替代品。对数级参数增长对于 的感受野WTConv 的参数量增长仅为 而传统大核是 。这意味着你可以用极小的代价获得极大的感受野。多频响应机制通过在低频分量上进行级联操作WTConv 能够比标准卷积更好地捕捉图像的低频信息通常对应物体的形状从而增强了模型对形状的感知能力Shape Bias。鲁棒性提升实验证明该方法在面对图像腐蚀、纹理失真等情况时比传统 CNN 具有更强的鲁棒性。4. 方法细节4.1 整体网络架构与数据流WTConv 的设计目标是替换深度卷积Depth-wise Convolution。其整体数据流遵循“分解WT 卷积Conv 重构IWT”的范式。流程详解输入 (Input)原始特征图 。多级小波分解 (Cascade WT)利用 Haar 小波变换将输入 分解为低频 () 和高频 () 分量。关键点对生成的低频分量递归地进行下一级分解。每一级分解后特征图的空间分辨率减半感受野范围对应翻倍。多频带卷积 (Convolutions)在每一层分解得到的特征图包括低频和高频部分上分别执行一个小的深度卷积例如 。由于是在降采样后的图上做卷积一个 的核在第 2 层分解图上实际上覆盖了原图 甚至更大的区域。逆小波重构与求和 (IWT Summation)将卷积后的结果通过逆小波变换IWT逐级上采样并还原。将不同层级处理后的特征进行相加融合最终得到输出。4.2 核心模块图解分析我们将重点放在论文提到的WTConv Layer内部机制上。模块拆解小波变换 (WT)使用 Haar 小波基包含加法和减法操作计算极快。将输入 变为 4 个子图 (低频近似), (水平、垂直、对角线细节)。作用保留空间信息的同时分离频率类似多分辨率金字塔。模块拆解级联卷积 (Cascade Conv)在图 2 中我们可以看到 的卷积核被应用在 第2级低频图上。核心机制 的 1 个像素对应原图 的区域。因此这里的一个 卷积其有效感受野在原图上被放大了 4 倍。这就是为什么参数增长是对数级的我们不需要增大核只需要增加分解的层数Level每增加一层感受野指数级扩大但参数只增加一个该层的卷积核。4.3 理念与机制总结WTConv 的数学表达可以总结为其核心理念在于“分而治之”高频细节纹理在浅层分解中通过小卷积处理保持局部细节。低频主体形状在深层分解中处理由于分辨率降低小卷积也能覆盖全局形状。4.4 图解总结如何解决“动机”中的问题回到 Figure 1 的动机图WTConv 之所以能点亮整个 ERF 图是因为它在深层小波分解低分辨率上进行的卷积操作通过 IWT 还原后相当于在原图上执行了一个覆盖全图的超大卷积。它用“多尺度”代替了“大尺寸”从而在参数量极低的情况下仅需几个小核打破了 RepLKNet 等方法的物理局限。5. 即插即用模块的作用WTConv 是一个标准的nn.Module设计初衷就是为了替换现有的卷积层特别是深度可分离卷积中的深度卷积部分。适用场景大分辨率图像处理由于小波变换的降采样特性对大图处理非常友好。需要捕捉全局信息的任务如语义分割需要上下文、目标检测特别是大物体或背景复杂的场景。对鲁棒性要求高的场景如自动驾驶、安防监控抗模糊、抗噪声。在 YOLO 或其他网络中的应用你可以将 YOLO backbone 或 Head 中的3x3或5x5Depth-wise Conv 替换为WTConv。6. 实验部分简单分析论文在 ImageNet 分类、ADE20K 分割和 COCO 检测上都进行了验证。ImageNet 分类在 ConvNeXt-T 架构下WTConv 达到了82.5%的 Top-1 准确率超过了 Swin-T (81.3%) 和 ConvNeXt-T (82.1%)且参数量增加很少。关键结论在参数量少于 RepLKNet 的情况下性能更优。下游任务 (检测与分割)语义分割 (UperNet)mIoU 提升了 0.6% 左右。目标检测 (Cascade Mask R-CNN)Box AP 和 Mask AP 均有显著提升0.6~0.7%。这对于一个即插即用的 Backbone 替换来说提升是非常扎实的。形状偏置与鲁棒性 (核心亮点)Shape Bias论文使用 Style Transfer 数据集测试发现 WTConv 更倾向于利用“形状”而非“纹理”进行分类这更接近人类视觉系统。鲁棒性在 ImageNet-C腐蚀数据集上WTConv 的错误率明显低于基线说明其学到的特征更加稳健。到此所有的内容就基本讲完了。如果觉得这篇文章对你有用记得点赞、收藏并分享给你的小伙伴们哦。7. 获取更多即插即用代码关注 【AI即插即用】

更多文章