TPAMI 2025 | 可见光融合红外红外，实现医学/遥感场景全拿下！多模态制导图像融合新框架

张开发

• 2026/6/3 19:36:46 • 15 分钟阅读

分享文章

TPAMI 2025 | 可见光融合红外红外，实现医学/遥感场景全拿下！多模态制导图像融合新框架

点击上方“小白学视觉”选择加星标或“置顶” 重磅干货第一时间送达在计算机视觉领域图像融合始终是极具价值的研究方向——无论是军事侦察中可见光与红外图像的互补融合还是医学诊断里不同模态影像的信息整合亦或是遥感领域的全色锐化、高光谱与多光谱图像融合优质的融合算法都能让合成图像更全面、精准地还原场景信息。近期一篇发表于TPAMI 2025的研究论文《An Efficient Image Fusion Network Exploiting Unifying Language and Mask Guidance》带来了颠覆性突破研究者摒弃了依赖下游任务、GAN、扩散模型等复杂框架的传统思路首次系统性整合全局语言描述与目标级语义掩码作为多模态引导结合轻量化的RWKV线性注意力骨干网络打造出RWKVFusion框架在可见光-红外、多聚焦、多曝光、医学、高光谱-多光谱、全色锐化六大图像融合任务中均斩获SOTA性能论文信息题目 An Efficient Image Fusion Network Exploiting Unifying Language and Mask Guidance一种利用统一语言和掩码引导的高效图像融合网络作者 Zi-Han Cao, Yu-Jie Liang, Liang-Jian Deng, Gemine Vivone一、传统图像融合的痛点效率与引导不可兼得图像融合的核心目标是整合不同传感器/成像参数下的图像互补信息但现有方法始终存在两大瓶颈引导方式受限多数深度融合框架要么依赖融合损失函数单一约束要么借助语义分割、扩散先验等引入额外训练开销极少有研究探索语言和语义掩码的引导价值计算成本高昂传统CNN感受野有限ViT类模型的自注意力机制存在二次计算开销面对高分辨率图像时内存和算力压力陡增即便结合卷积与注意力的混合架构也难以平衡性能与效率。正是瞄准这些痛点RWKVFusion框架应运而生——既解决了“融合引导不足”的问题又实现了“线性复杂度全局感受野”的高效推理。二、RWKVFusion核心架构多模态引导高效骨干双管齐下先来看RWKVFusion的整体框架图1整个框架分为两大分支融合分支高效多模态网络和语义分支提供语言掩码语义信息输入不同模态图像后结合语言描述T和掩码M的引导最终输出高质量融合图像。图11. 语义分支语言掩码给融合加双重视觉引导语义分支是RWKVFusion的“指挥中枢”核心作用是为融合过程注入高层语义信息语言描述生成借助预训练的Florence模型生成图像描述再通过T5模型编码为文本特征T实现全局层面的语义引导语义掩码生成基于用户/Florence提供的提示通过DINO完成开放集检测再进行掩码分割得到目标级掩码M。这里要解决一个关键问题不同传感器图像的语义内容不一致会导致掩码质量不佳。为此研究者提出基于IoU的掩码合并算法图7自动融合不同模态的掩码生成更准确、鲁棒的语义掩码为融合提供可靠的物体级引导。图72. 融合分支RWKV骨干网络高效处理多模态特征融合分支的核心是RWKVFusion主干网络图5这是一个多尺度编码器-解码器架构而非简单的平坦架构能更好地捕捉不同尺度的图像特征图51双向RWKVBRWKV线性复杂度的全局注意力原始RWKV是为语言建模设计的因果序列模型研究者通过高效二维图像扫描策略ESS将其改造为双向版本把2D图像通过水平、垂直可叠加翻转、对角线扫描转换为1D序列既保留图像的空间结构又适配RWKV的序列处理特性BRWKV分为空间混合和通道混合模块空间混合建模令牌间的全局关系通道混合增强特征的非线性交互整体复杂度随序列长度线性增长对比标准注意力、窗口注意力、VMamba等表1在参数量、时间/空间消耗上优势显著。2多模态融合模块MFM跨模态信息深度融合为了让语言、掩码和图像特征高效交互研究者设计了MFM模块图5(c)通过三条路径引导融合原始信息补充对图像模态特征和网络前层特征进行门控处理保留基础特征信息掩码引导将掩码特征与图像特征逐元素相乘让网络聚焦于掩码标注的目标区域语言引导将图像特征与文本特征交替拼接通过空间混合和MLP实现跨模态信息交换。从特征可视化结果图6能清晰看到掩码引导的特征X_mask精准聚焦目标区域语言引导后的特征具备全局响应语义和目标级信息被有效注入融合过程。图63损失函数适配不同融合任务针对有监督全色锐化、HMIF和无监督VIF、MFF、MEF、MIF任务研究者设计了差异化的损失函数有监督任务结合L1损失和SSIM损失保证融合图像与真实值的像素和结构相似度无监督任务整合强度损失、SSIM损失和梯度损失兼顾融合图像与输入模态的像素一致性、结构相似性以及边缘细节的保留。三、六大任务全面验证性能与效率双领先为了验证RWKVFusion的有效性研究者在六大图像融合任务、十余种公开数据集上展开了全面实验对比了分解方法、任务设计方法、基于先验的方法、架构设计方法、模态引导方法等数十种SOTA方案。1. 可见光-红外VIF与医学图像融合MIF在MSRS、M3FD、TNOVIF和Medical HarvardMIF数据集上RWKVFusion在MI、VIF、SF等8项指标中7项取得最佳结果表2。视觉效果上图8上两行相比U2Fusion、DeFuse等方法RWKVFusion能清晰还原烟雾遮挡的目标同时避免颜色失真医学图像融合中除LPIPS外所有指标均最优仅比最佳值低0.04兼顾细节与全局一致性。2. 多曝光MEF与多聚焦MFF图像融合在SICE、MEFBMEF和MFI-WHU、RealMFFMFF数据集上RWKVFusion在8项指标中6-7项领先。定性对比中图8中下部MEF任务里该方法能平衡高低曝光区域的亮度MFF任务中可精准保留前景标志文字等细节保真度远超ZMFF、TC-MOA等方法。图83. 全色锐化与高光谱-多光谱HMIF融合全色锐化任务中RWKVFusion在WV3、GF2、QB数据集的降分辨率和全分辨率评估中均达SOTA误差图图9左显示其残差亮度最低能同时保留全色图像的精细结构和多光谱图像的光谱信息HMIF任务中在Chikusei和Pavia数据集上所有指标领先且仅用DHIF 8.41%的参数、0.67%的FLOPs效率优势拉满表5。图9四、消融研究关键设计的有效性验证为了明确各模块的贡献研究者开展了系列消融实验BRWKV vs 其他注意力替换为Flash Attention、Flatten Attention、Window Attention、VMamba后RWKVFusion在几乎所有指标上领先窗口化BRWKV虽性能略降但仍优于窗口注意力适合资源受限场景扫描策略对比不同扫描方向2次/4次/8次的实验表明默认的2次扫描水平垂直翻转交替在性能和效率间实现最优平衡过多扫描会增加计算成本且可能破坏空间感知。五、总结图像融合的新范式RWKVFusion的核心价值在于提出多模态引导新范式首次将全局语言描述与目标级语义掩码结合为图像融合提供语义对象级双重指导打造高效线性注意力骨干网络解决了传统注意力二次开销的问题兼顾全局感受野与低计算成本全任务适配性强在六大融合任务中均实现SOTA且参数量和FLOPs远低于同类方法。这一研究不仅为图像融合提供了全新的技术思路也为多模态信息在低层视觉任务中的应用开辟了新方向未来有望在遥感、医疗、军事等领域落地实用化的高效融合方案。下载1OpenCV-Contrib扩展模块中文版教程在「小白学视觉」公众号后台回复扩展模块中文教程即可下载全网第一份OpenCV扩展模块教程中文版涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。下载2Python视觉实战项目52讲在「小白学视觉」公众号后台回复Python视觉实战项目即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目助力快速学校计算机视觉。下载3人工智能0基础学习攻略手册在「小白学视觉」公众号后台回复攻略手册即可获取《从 0 入门人工智能学习攻略手册》文档包含视频课件、习题、电子书、代码、数据等人工智能学习相关资源可以下载离线学习。交流群欢迎加入公众号读者群一起和同行交流目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群以后会逐渐细分请扫描下面微信号加群备注”昵称学校/公司研究方向“例如”张三上海交大视觉SLAM“。请按照格式备注否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告否则会请出群谢谢理解~

更多文章

前端开发 2026/6/3 19:33:55

如何通过Windows Defender Remover解决系统资源占用问题？实测提升30%性能的完整方案

如何通过Windows Defender Remover解决系统资源占用问题？实测提升30%性能的完整方案【免费下载链接】windows-defender-remover A tool which is uses to remove Windows Defender in Windows 8.x, Windows 10 (every version) and Windows 11. 项目地址: https:…

一、漏洞说明该漏洞属于前台SQL注入高危漏洞，主要存在于DedeCMS下载模块中，攻击者无需登录，仅需构造恶意下载请求，即可通过注入获取数据库信息，包括管理员账号密码、网站数据等，严重时可导致网站被接管。…

张开发

前端开发 2026/5/8 6:44:46

OpenClaw低代码方案：Qwen3-4B可视化编排自动化流程

OpenClaw低代码方案：Qwen3-4B可视化编排自动化流程 1. 为什么需要低代码自动化工具作为一个长期与命令行打交道的开发者，我最初对"低代码"方案持怀疑态度。直到上个月需要为市场团队搭建一个简单的数据整理流程时，才真正体会到可…

张开发

TPAMI 2025 | 可见光融合红外红外，实现医学/遥感场景全拿下！多模态制导图像融合新框架

最新文章

FPGA异步FIFO读写位宽转换实战：从8bit到32bit的数据拼接与拆分（Vivado+Modelsim）

从图像模糊到语音识别：卷积在AI中的实战应用与Python代码示例

车载OTA升级中Docker层缓存失效导致回滚失败？3步构建可复现、可签名、可审计的分层镜像流水线（含Sigstore+Notary v2集成）

盛合晶微科创板上市，开盘市值近1858亿，无锡国资投资回报率超600%

如何用AI大模型技术一键批量生成和发布短视频？MoneyPrinterPlus全攻略

一张“网”如何拯救生命？浅谈医疗系统集成平台iPaaS

推荐文章

相关文章

分享文章

更多文章

如何通过Windows Defender Remover解决系统资源占用问题？实测提升30%性能的完整方案

Java的运行时数据区

SEER‘S EYE预言家之眼安全考量：在模型部署中防范提示词注入攻击

从理论到实践：深入解析面向对象六大设计原则

PP-DocLayoutV3开源模型部署全攻略

WSL2中nvidia-smi命令缺失的深度解析与解决方案

KMS_VL_ALL_AIO开源激活工具：批量授权管理与本地服务部署的高效解决方案

2026年春招AI人才争夺战白热化！收藏这份高薪岗位与学习指南，小白也能入行大模型

免费AI翻唱终极指南：5分钟上手AICoverGen语音转换工具

同事skill刷屏后，我开源了自己的skill——这是我的理由

DedeCMS plus/download.php SQL注入漏洞修复教程

OpenClaw低代码方案：Qwen3-4B可视化编排自动化流程