即插即用系列 | ECCV 2024 WTConv：利用小波变换实现超大感受野的卷积神经网络

张开发

• 2026/4/20 3:04:33 • 15 分钟阅读

分享文章

即插即用系列 | ECCV 2024 WTConv：利用小波变换实现超大感受野的卷积神经网络

论文标题Wavelet Convolutions for Large Receptive Fields论文原文 (Paper)https://arxiv.org/abs/2407.05848代码 (code)https://github.com/BGU-CS-VIL/WTConv哔哩哔哩视频讲解https://space.bilibili.com/57394501?spm_id_from333.337.0.0本论文的完整复现代码即插即用版已更新至专栏即插即用系列代码实践 | ECCV 2024 WTConv利用小波变换实现超大感受野的卷积神经网络目录1. 核心思想2. 背景与动机2.1 文本背景总结2.2 动机图解分析3. 主要创新点4. 方法细节4.1 整体网络架构与数据流4.2 核心模块图解分析4.3 理念与机制总结4.4 图解总结如何解决“动机”中的问题5. 即插即用模块的作用6. 实验部分简单分析7. 获取更多即插即用代码关注【AI即插即用】1. 核心思想本文提出了一种名为WTConv (Wavelet Transform Convolution)的新型卷积层旨在解决卷积神经网络CNN难以高效获得全局感受野的问题。核心思想是利用级联小波变换Cascade Wavelet Transform将输入特征图分解为不同频率的子带在这些降采样后的频带上执行小卷积操作从而以对数级Logarithmic而非二次方级的参数增长实现了接近全局的有效感受野。WTConv 可以作为现有网络如 ConvNeXt、MobileNet中深度卷积Depth-wise Conv的即插即用替代品显著提升了模型的形状偏置Shape Bias和对图像腐蚀的鲁棒性。2. 背景与动机2.1 文本背景总结在过去几年Vision Transformers (ViTs) 凭借自注意力机制带来的全局感受野在性能上超越了许多 CNN。为了弥补这一差距研究者们尝试增大 CNN 的卷积核例如 RepLKNet 中的甚至更大。然而这种简单粗暴的“大核”策略面临两个严峻问题参数量爆炸参数量随核大小呈二次增长。性能饱和单纯增大核尺寸性能在达到一定程度后不再提升甚至下降且仍然难以达到真正的全局感受野。本文的动机就在于能否利用信号处理工具小波在不引起参数爆炸的前提下让卷积真正拥有全局感受野2.2 动机图解分析看图说话与痛点分析左图 (a) RepLK这是使用单纯大卷积核如的结果。我们可以看到虽然中心区域亮起但在远离中心的区域边缘响应非常微弱深蓝色。这说明即使加大了核尺寸其实际有效感受野ERF依然是受限的存在明显的局部性局限。中图 (b) SLaK这是使用稀疏大核的方法。相比 RepLK 略有改善但依然存在明显的中心聚焦效应未能覆盖全图。右图 © WTConv (本文方法)这是本文提出的方法。可以看到整张特征图都呈现出明亮的响应且分布均匀。总结这组对比图直观地揭示了现有大核方法的“效率瓶颈”——它们堆叠了大量参数却换不来真正的全局信息交互。而 WTConv 通过频域分解用更少的参数实现了真正的全局感受野完美解决了“大核不一定大感受野”的痛点。3. 主要创新点基于小波的卷积层 (WTConv)提出了一种利用小波变换进行多频率处理的新型层作为深度卷积的通用替代品。对数级参数增长对于的感受野WTConv 的参数量增长仅为而传统大核是。这意味着你可以用极小的代价获得极大的感受野。多频响应机制通过在低频分量上进行级联操作WTConv 能够比标准卷积更好地捕捉图像的低频信息通常对应物体的形状从而增强了模型对形状的感知能力Shape Bias。鲁棒性提升实验证明该方法在面对图像腐蚀、纹理失真等情况时比传统 CNN 具有更强的鲁棒性。4. 方法细节4.1 整体网络架构与数据流WTConv 的设计目标是替换深度卷积Depth-wise Convolution。其整体数据流遵循“分解WT 卷积Conv 重构IWT”的范式。流程详解输入 (Input)原始特征图。多级小波分解 (Cascade WT)利用 Haar 小波变换将输入分解为低频 () 和高频 () 分量。关键点对生成的低频分量递归地进行下一级分解。每一级分解后特征图的空间分辨率减半感受野范围对应翻倍。多频带卷积 (Convolutions)在每一层分解得到的特征图包括低频和高频部分上分别执行一个小的深度卷积例如。由于是在降采样后的图上做卷积一个的核在第 2 层分解图上实际上覆盖了原图甚至更大的区域。逆小波重构与求和 (IWT Summation)将卷积后的结果通过逆小波变换IWT逐级上采样并还原。将不同层级处理后的特征进行相加融合最终得到输出。4.2 核心模块图解分析我们将重点放在论文提到的WTConv Layer内部机制上。模块拆解小波变换 (WT)使用 Haar 小波基包含加法和减法操作计算极快。将输入变为 4 个子图 (低频近似), (水平、垂直、对角线细节)。作用保留空间信息的同时分离频率类似多分辨率金字塔。模块拆解级联卷积 (Cascade Conv)在图 2 中我们可以看到的卷积核被应用在第2级低频图上。核心机制的 1 个像素对应原图的区域。因此这里的一个卷积其有效感受野在原图上被放大了 4 倍。这就是为什么参数增长是对数级的我们不需要增大核只需要增加分解的层数Level每增加一层感受野指数级扩大但参数只增加一个该层的卷积核。4.3 理念与机制总结WTConv 的数学表达可以总结为其核心理念在于“分而治之”高频细节纹理在浅层分解中通过小卷积处理保持局部细节。低频主体形状在深层分解中处理由于分辨率降低小卷积也能覆盖全局形状。4.4 图解总结如何解决“动机”中的问题回到 Figure 1 的动机图WTConv 之所以能点亮整个 ERF 图是因为它在深层小波分解低分辨率上进行的卷积操作通过 IWT 还原后相当于在原图上执行了一个覆盖全图的超大卷积。它用“多尺度”代替了“大尺寸”从而在参数量极低的情况下仅需几个小核打破了 RepLKNet 等方法的物理局限。5. 即插即用模块的作用WTConv 是一个标准的nn.Module设计初衷就是为了替换现有的卷积层特别是深度可分离卷积中的深度卷积部分。适用场景大分辨率图像处理由于小波变换的降采样特性对大图处理非常友好。需要捕捉全局信息的任务如语义分割需要上下文、目标检测特别是大物体或背景复杂的场景。对鲁棒性要求高的场景如自动驾驶、安防监控抗模糊、抗噪声。在 YOLO 或其他网络中的应用你可以将 YOLO backbone 或 Head 中的3x3或5x5Depth-wise Conv 替换为WTConv。6. 实验部分简单分析论文在 ImageNet 分类、ADE20K 分割和 COCO 检测上都进行了验证。ImageNet 分类在 ConvNeXt-T 架构下WTConv 达到了82.5%的 Top-1 准确率超过了 Swin-T (81.3%) 和 ConvNeXt-T (82.1%)且参数量增加很少。关键结论在参数量少于 RepLKNet 的情况下性能更优。下游任务 (检测与分割)语义分割 (UperNet)mIoU 提升了 0.6% 左右。目标检测 (Cascade Mask R-CNN)Box AP 和 Mask AP 均有显著提升0.6~0.7%。这对于一个即插即用的 Backbone 替换来说提升是非常扎实的。形状偏置与鲁棒性 (核心亮点)Shape Bias论文使用 Style Transfer 数据集测试发现 WTConv 更倾向于利用“形状”而非“纹理”进行分类这更接近人类视觉系统。鲁棒性在 ImageNet-C腐蚀数据集上WTConv 的错误率明显低于基线说明其学到的特征更加稳健。到此所有的内容就基本讲完了。如果觉得这篇文章对你有用记得点赞、收藏并分享给你的小伙伴们哦。7. 获取更多即插即用代码关注【AI即插即用】

更多文章

前端开发 2026/4/20 3:03:57

SCons源码架构分析：理解构建引擎的核心实现原理

SCons源码架构分析：理解构建引擎的核心实现原理【免费下载链接】scons SCons - a software construction tool 项目地址: https://gitcode.com/gh_mirrors/sc/scons SCons作为一款强大的软件构建工具，其源码架构设计体现了现代构建系统的核心思想…

张开发

前端开发 2026/4/20 3:01:19

SenseVoice-Small ONNX效果展示：财经电话会议→关键数据点自动高亮

SenseVoice-Small ONNX效果展示：财经电话会议→关键数据点自动高亮 1. 项目简介 SenseVoice-Small ONNX是一款基于FunASR开源框架的轻量化语音识别工具，专门针对本地部署场景进行了深度优化。这个工具的核心价值在于将专业的语音识别能力带到了普通硬件…

张开发

前端开发 2026/4/20 2:55:16

2025_NIPS_InterMT: Multi-Turn Interleaved Preference Alignment with Human Feedback

文章核心总结与创新点核心内容本文针对多模态大模型（MLLMs）在多轮交错式理解与生成任务中的对齐缺口，提出首个聚焦该场景的人类偏好数据集INTERMT，配套构建评估基准INTERMT-BENCH。数据集通过工具增强的智能体工作流生成52.6k多轮问答实例，涵盖15+视觉-语言任务，结合…

张开发

前端开发 2026/4/20 2:48:18

CTF SHOW WEB 4（无法查看源代码）

打开靶场还是没给任何信息，但是题目给了信息这道题考察的就是web中常见的信息泄露漏洞，特别是针对robots.txt文件的利用，什么是robots.txt？robots.txt 是存放于网站根目录下的一个文本文件。它的初衷是告诉搜索引擎的爬虫&#xf…

张开发

前端开发 2026/4/20 2:45:27

ExplorerPatcher卸载全攻略：3步彻底清理+杀毒软件误报修复指南

ExplorerPatcher卸载全攻略：3步彻底清理杀毒软件误报修复指南【免费下载链接】ExplorerPatcher This project aims to enhance the working environment on Windows 项目地址: https://gitcode.com/GitHub_Trending/ex/ExplorerPatcher 你是否曾经安装了Exp…

张开发

前端开发 2026/4/20 2:39:24

python开发一款翻译工具

最近，某水果手机厂在万众期待中开了一场没有发布万众期待的手机产品的发布会，发布了除手机外的其他一些产品，也包括最新的水果14系统。几天后，更新了系统的吃瓜群众经过把玩突然发现新系统里一个超有意思的功能——翻译&#xff0…

张开发

前端开发 2026/4/20 2:37:29

ESP32开发环境搭建：手把手教你搞定Python依赖报错（ESP-IDF 4.x/5.x通用）

ESP32开发环境搭建：手把手教你搞定Python依赖报错（ESP-IDF 4.x/5.x通用） 第一次接触ESP32开发时，看到终端里突然跳出一堆红色报错信息，那种手足无措的感觉我至今记忆犹新。特别是当错误提示"The following Python…

张开发

前端开发 2026/4/20 2:32:39

因果迁移学习：打破数据壁垒的下一代AI范式

因果迁移学习：打破数据壁垒的下一代AI范式引言在传统机器学习中，模型常常是“数据在哪，能力就在哪”，一旦数据分布发生变化，性能就可能急剧衰退。你是否遇到过，一个在A医院表现优异的疾病诊断模型&…

张开发

前端开发 2026/4/20 2:26:24

2026奇点大会唯一未删减技术圆桌实录（含OpenAI、Ethereum基金会、中科院自动化所三方闭门共识）：AGI主权归属的区块链终局方案

第一章：2026奇点智能技术大会：AGI与区块链 2026奇点智能技术大会(https://ml-summit.org) AGI系统与去中心化身份的协同演进在2026奇点智能技术大会上，核心议题之一是通用人工智能（AGI）如何依托区块链构建可信自主代…

张开发

前端开发 2026/4/20 2:23:32

3步掌握GPX轨迹编辑：从新手到专家的完整指南

3步掌握GPX轨迹编辑：从新手到专家的完整指南【免费下载链接】gpxstudio.github.io The online GPX file editor 项目地址: https://gitcode.com/gh_mirrors/gp/gpxstudio.github.io 在户外运动、徒步旅行或骑行活动中，GPS轨迹文件（GP…

张开发

$如何用5分钟搭建免费的云端LaTeX写作环境？WebLaTex完整指南$

前端开发 2026/4/20 2:23:32

如何用5分钟搭建免费的云端LaTeX写作环境？WebLaTex完整指南

如何用5分钟搭建免费的云端LaTeX写作环境？WebLaTex完整指南【免费下载链接】WebLaTex A complete alternative for Overleaf with VSCode Web Git Integration Copilot Grammar & Spell Checker Live Collaboration Support. Based on GitHub Codespace a…

张开发

前端开发 2026/4/20 2:10:25

为什么MySQL中WHERE条件里用OR会导致索引失效？

为什么MySQL中WHERE条件里用OR会导致索引失效？ 在数据库查询优化中，索引是提升性能的关键工具。许多开发者发现，当WHERE条件中使用OR运算符时，索引可能会失效，导致查询性能急剧下降。这种现象背后的原理是什么&#x…

张开发

即插即用系列 | ECCV 2024 WTConv：利用小波变换实现超大感受野的卷积神经网络

最新文章

Steam上那些用Lua写的游戏：从《挺进地牢》到《星露谷物语》模组，聊聊LÖVE 2D的实战潜力

Cross-View Geo-localization: From Landmark Graphs to Dynamic Matching

从SU3小数点设置到CATS_NUMERIC_INPUT_CHECK：深入聊聊ABAP数字判断的‘地域性’陷阱

Docker pull镜像失败“TLS handshake timeout”排查与修复指南

告别物理机折腾：手把手教你用U盘安装VMware ESXi 8.0（附静态IP配置避坑指南）

STM32驱动ADS1220：从寄存器配置到高精度数据采集实战

推荐文章

如何用Notepad--这款国产跨平台编辑器提升你的文本处理效率？

如何处理SQL在主从复制下的数据更新延迟_负载均衡与读写分离

SurveyKing企业级问卷系统部署挑战与高可用架构解决方案

QuickLook Office预览插件终极指南：让文档查看快如闪电

英国网络安全专业人员的法律保护严重滞后

从BN到LN：为何NLP领域更偏爱层归一化？

相关文章

深入解析ZeroMQ inproc：线程间通信的高效实现与性能优势

BewlyBewly终极指南：打造高效个性化的B站浏览体验

IDM激活脚本架构设计：基于注册表锁定机制的99%成功率激活方案

Sulpho-Methyltetrazine-NHS ester，磺化甲基四嗪-琥珀酰亚胺酯的结构特点与功能

3步精通Zotero OCR：从安装到高效文本识别

OpCore-Simplify：驯服硬件兼容性的自动化引擎

分享文章

更多文章

SCons源码架构分析：理解构建引擎的核心实现原理

SenseVoice-Small ONNX效果展示：财经电话会议→关键数据点自动高亮

2025_NIPS_InterMT: Multi-Turn Interleaved Preference Alignment with Human Feedback

CTF SHOW WEB 4（无法查看源代码）

ExplorerPatcher卸载全攻略：3步彻底清理+杀毒软件误报修复指南

python开发一款翻译工具

ESP32开发环境搭建：手把手教你搞定Python依赖报错（ESP-IDF 4.x/5.x通用）

因果迁移学习：打破数据壁垒的下一代AI范式

2026奇点大会唯一未删减技术圆桌实录（含OpenAI、Ethereum基金会、中科院自动化所三方闭门共识）：AGI主权归属的区块链终局方案

3步掌握GPX轨迹编辑：从新手到专家的完整指南

如何用5分钟搭建免费的云端LaTeX写作环境？WebLaTex完整指南

为什么MySQL中WHERE条件里用OR会导致索引失效？