TPAMI 2025 | 可见光融合红外红外,实现医学/遥感场景全拿下!多模态制导图像融合新框架

张开发
2026/4/9 10:39:16 15 分钟阅读

分享文章

TPAMI 2025 | 可见光融合红外红外,实现医学/遥感场景全拿下!多模态制导图像融合新框架
点击上方“小白学视觉”选择加星标或“置顶” 重磅干货第一时间送达在计算机视觉领域图像融合始终是极具价值的研究方向——无论是军事侦察中可见光与红外图像的互补融合还是医学诊断里不同模态影像的信息整合亦或是遥感领域的全色锐化、高光谱与多光谱图像融合优质的融合算法都能让合成图像更全面、精准地还原场景信息。近期一篇发表于TPAMI 2025的研究论文《An Efficient Image Fusion Network Exploiting Unifying Language and Mask Guidance》带来了颠覆性突破研究者摒弃了依赖下游任务、GAN、扩散模型等复杂框架的传统思路首次系统性整合全局语言描述与目标级语义掩码作为多模态引导结合轻量化的RWKV线性注意力骨干网络打造出RWKVFusion框架在可见光-红外、多聚焦、多曝光、医学、高光谱-多光谱、全色锐化六大图像融合任务中均斩获SOTA性能论文信息题目 An Efficient Image Fusion Network Exploiting Unifying Language and Mask Guidance一种利用统一语言和掩码引导的高效图像融合网络作者 Zi-Han Cao, Yu-Jie Liang, Liang-Jian Deng, Gemine Vivone一、传统图像融合的痛点效率与引导不可兼得图像融合的核心目标是整合不同传感器/成像参数下的图像互补信息但现有方法始终存在两大瓶颈引导方式受限多数深度融合框架要么依赖融合损失函数单一约束要么借助语义分割、扩散先验等引入额外训练开销极少有研究探索语言和语义掩码的引导价值计算成本高昂传统CNN感受野有限ViT类模型的自注意力机制存在二次计算开销面对高分辨率图像时内存和算力压力陡增即便结合卷积与注意力的混合架构也难以平衡性能与效率。正是瞄准这些痛点RWKVFusion框架应运而生——既解决了“融合引导不足”的问题又实现了“线性复杂度全局感受野”的高效推理。二、RWKVFusion核心架构多模态引导高效骨干双管齐下先来看RWKVFusion的整体框架图1整个框架分为两大分支融合分支高效多模态网络和语义分支提供语言掩码语义信息输入不同模态图像后结合语言描述T和掩码M的引导最终输出高质量融合图像。图11. 语义分支语言掩码给融合加双重视觉引导语义分支是RWKVFusion的“指挥中枢”核心作用是为融合过程注入高层语义信息语言描述生成借助预训练的Florence模型生成图像描述再通过T5模型编码为文本特征T实现全局层面的语义引导语义掩码生成基于用户/Florence提供的提示通过DINO完成开放集检测再进行掩码分割得到目标级掩码M。这里要解决一个关键问题不同传感器图像的语义内容不一致会导致掩码质量不佳。为此研究者提出基于IoU的掩码合并算法图7自动融合不同模态的掩码生成更准确、鲁棒的语义掩码为融合提供可靠的物体级引导。图72. 融合分支RWKV骨干网络高效处理多模态特征融合分支的核心是RWKVFusion主干网络图5这是一个多尺度编码器-解码器架构而非简单的平坦架构能更好地捕捉不同尺度的图像特征图51双向RWKVBRWKV线性复杂度的全局注意力原始RWKV是为语言建模设计的因果序列模型研究者通过高效二维图像扫描策略ESS将其改造为双向版本把2D图像通过水平、垂直可叠加翻转、对角线扫描转换为1D序列既保留图像的空间结构又适配RWKV的序列处理特性BRWKV分为空间混合和通道混合模块空间混合建模令牌间的全局关系通道混合增强特征的非线性交互整体复杂度随序列长度线性增长对比标准注意力、窗口注意力、VMamba等表1在参数量、时间/空间消耗上优势显著。2多模态融合模块MFM跨模态信息深度融合为了让语言、掩码和图像特征高效交互研究者设计了MFM模块图5(c)通过三条路径引导融合原始信息补充对图像模态特征和网络前层特征进行门控处理保留基础特征信息掩码引导将掩码特征与图像特征逐元素相乘让网络聚焦于掩码标注的目标区域语言引导将图像特征与文本特征交替拼接通过空间混合和MLP实现跨模态信息交换。从特征可视化结果图6能清晰看到掩码引导的特征X_mask精准聚焦目标区域语言引导后的特征具备全局响应语义和目标级信息被有效注入融合过程。图63损失函数适配不同融合任务针对有监督全色锐化、HMIF和无监督VIF、MFF、MEF、MIF任务研究者设计了差异化的损失函数有监督任务结合L1损失和SSIM损失保证融合图像与真实值的像素和结构相似度无监督任务整合强度损失、SSIM损失和梯度损失兼顾融合图像与输入模态的像素一致性、结构相似性以及边缘细节的保留。三、六大任务全面验证性能与效率双领先为了验证RWKVFusion的有效性研究者在六大图像融合任务、十余种公开数据集上展开了全面实验对比了分解方法、任务设计方法、基于先验的方法、架构设计方法、模态引导方法等数十种SOTA方案。1. 可见光-红外VIF与医学图像融合MIF在MSRS、M3FD、TNOVIF和Medical HarvardMIF数据集上RWKVFusion在MI、VIF、SF等8项指标中7项取得最佳结果表2。视觉效果上图8上两行相比U2Fusion、DeFuse等方法RWKVFusion能清晰还原烟雾遮挡的目标同时避免颜色失真医学图像融合中除LPIPS外所有指标均最优仅比最佳值低0.04兼顾细节与全局一致性。2. 多曝光MEF与多聚焦MFF图像融合在SICE、MEFBMEF和MFI-WHU、RealMFFMFF数据集上RWKVFusion在8项指标中6-7项领先。定性对比中图8中下部MEF任务里该方法能平衡高低曝光区域的亮度MFF任务中可精准保留前景标志文字等细节保真度远超ZMFF、TC-MOA等方法。图83. 全色锐化与高光谱-多光谱HMIF融合全色锐化任务中RWKVFusion在WV3、GF2、QB数据集的降分辨率和全分辨率评估中均达SOTA误差图图9左显示其残差亮度最低能同时保留全色图像的精细结构和多光谱图像的光谱信息HMIF任务中在Chikusei和Pavia数据集上所有指标领先且仅用DHIF 8.41%的参数、0.67%的FLOPs效率优势拉满表5。图9四、消融研究关键设计的有效性验证为了明确各模块的贡献研究者开展了系列消融实验BRWKV vs 其他注意力替换为Flash Attention、Flatten Attention、Window Attention、VMamba后RWKVFusion在几乎所有指标上领先窗口化BRWKV虽性能略降但仍优于窗口注意力适合资源受限场景扫描策略对比不同扫描方向2次/4次/8次的实验表明默认的2次扫描水平垂直翻转交替在性能和效率间实现最优平衡过多扫描会增加计算成本且可能破坏空间感知。五、总结图像融合的新范式RWKVFusion的核心价值在于提出多模态引导新范式首次将全局语言描述与目标级语义掩码结合为图像融合提供语义对象级双重指导打造高效线性注意力骨干网络解决了传统注意力二次开销的问题兼顾全局感受野与低计算成本全任务适配性强在六大融合任务中均实现SOTA且参数量和FLOPs远低于同类方法。这一研究不仅为图像融合提供了全新的技术思路也为多模态信息在低层视觉任务中的应用开辟了新方向未来有望在遥感、医疗、军事等领域落地实用化的高效融合方案。下载1OpenCV-Contrib扩展模块中文版教程在「小白学视觉」公众号后台回复扩展模块中文教程即可下载全网第一份OpenCV扩展模块教程中文版涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。下载2Python视觉实战项目52讲在「小白学视觉」公众号后台回复Python视觉实战项目即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目助力快速学校计算机视觉。下载3人工智能0基础学习攻略手册在「小白学视觉」公众号后台回复攻略手册即可获取《从 0 入门人工智能学习攻略手册》文档包含视频课件、习题、电子书、代码、数据等人工智能学习相关资源可以下载离线学习。交流群欢迎加入公众号读者群一起和同行交流目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群以后会逐渐细分请扫描下面微信号加群备注”昵称学校/公司研究方向“例如”张三 上海交大 视觉SLAM“。请按照格式备注否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告否则会请出群谢谢理解~

更多文章