【CVPR26-陶大程-南洋理工】启发式推理先验助力数据高效型指代目标检测

张开发
2026/4/18 3:24:56 15 分钟阅读

分享文章

【CVPR26-陶大程-南洋理工】启发式推理先验助力数据高效型指代目标检测
文章Heuristic-inspired Reasoning Priors Facilitate Data-Efficient Referring Object Detection代码https://github.com/xuzhang1199/HeROD单位悉尼大学、拉筹伯大学、武汉大学、新加坡南洋理工大学一、问题背景指称目标检测Referring Object Detection, ROD旨在根据自然语言描述在图像中定位唯一指定的目标物体是机器人交互、增强现实AR、医疗影像分析等真实落地场景的核心技术。当前SOTA模型如Grounding DINO、UNINEXT、GLIP均面向数据充足场景设计依靠大规模预训练端到端隐式学习在标注极度稀缺的实际部署中存在明显缺陷模型必须从少量样本中从零重新学习“左右、上下、颜色、属性、相对位置”等基础常识样本效率极低细粒度空间与语义线索学习不充分导致定位精度大幅下降小样本下训练不稳定、收敛慢、极易过拟合泛化能力差。更关键的是现有研究缺少专门针对“低数据/小样本ROD”的标准评测协议。为此本文首次提出De-RODData-efficient Referring Object Detection基准专门用于系统评估模型在极低数据0.1%–5%和小样本泛化下的性能填补领域空白。二、方法创新详细完整版本文提出HeRODHeuristic-inspired Referring Object Detection框架核心思路不再让模型从稀缺数据中隐式学习基础推理规则而是直接注入显式、可解释的启发式推理先验引导模型快速收敛、提升数据效率。HeROD是轻量级、模型无关的插件式框架可无缝接入任意DETR-style检测器不改动主干网络结构。一核心先验设计空间先验 视觉语义先验(论文中没有提供流程图只有公式HeROD从文本描述与图像中自动提取两类可解释先验无需任何额外标注。1. 启发式空间先验 (H_s)目标显式建模“left/right/top/bottom/top-left”等方位约束直接缩小目标搜索范围。实现步骤构建空间描述词表 (T)包含基础方位与复合方位从指称语句 (d_i) 中匹配出空间词汇 (t_i)生成与图像对齐的空间概率热图(M_s(t_i))越靠近目标方位得分越高对候选框 (o_j)取中心位置的热图分值作为空间先验作用让模型直接知道“目标大概在图像的哪一侧”避免在错误区域浪费计算。2. 启发式视觉语义先验 (H_v)目标显式建模物体属性、类别、文本-区域匹配度解决相似物体歧义。实现步骤采用CLIPSeg作为文本-视觉对齐工具输入整图与文本输出稠密文本条件相关热图对每个候选框 (o_j)取框内所有像素的得分均值作为该候选与描述的语义匹配度关键不是简单后处理融合而是将CLIPSeg信号转化为可参与训练的推理先验深度影响模型学习过程。3. 先验融合统一先验空间先验负责定位约束视觉先验负责语义对齐二者互补。二三阶段深度注入DETR检测流程核心创新HeROD将上述先验系统性注入DETR的三个关键阶段从候选筛选、预测输出到训练损失全链路引导这是区别于所有后处理/简单融合方法的本质创新。阶段1候选框生成Reference Generation——先验引导排序问题小样本下检测器置信度不可靠Top-N筛选容易丢掉正确候选。做法加法融合先验直接将空间先验视觉先验加到检测器原始置信度再做Top-N筛选效果早期就保留空间合理语义匹配的候选显著提升后续解码质量与收敛速度。阶段2最终预测Final Prediction——自适应学习融合问题固定权重融合无法适应不同场景先验与模型置信度需要动态平衡。做法采用轻量级可学习MLP做自适应融合拼接 (H_s)、(H_v)、检测器置信度 (P)送入小MLP学习最优权重输出最终预测得分效果模型自动判断何时信任先验、何时信任视觉特征鲁棒性大幅提升。阶段3训练目标Training Objective——先验增强匈牙利匹配问题小样本下分类分数噪声大匈牙利匹配不稳定导致损失监督错误。做法1修改匹配代价将先验加入匹配代价函数优先匹配符合先验的预测框做法2增加先验置信损失加入MSE损失让模型预测置信度对齐启发式先验实现强正则化效果小样本下标签分配更稳定训练更平滑显著抑制过拟合。三框架特性模型无关可直接插入Grounding DINO、UNINEXT、Deformable DETR等任意检测器即插即用不修改主干、不增加标注成本、训练推理流程不变轻量高效仅引入极小计算与参数量开销延迟几乎无上升可扩展未来可加入深度先验、关系先验、领域知识先验等。三、实验结果实验在RefCOCO / RefCOCO / RefCOCOg三大权威数据集开展覆盖极低数据与小样本两种硬核场景。1. 极低数据场景0.1%–5%标注HeROD在0.1%极限数据下对Grounding DINO提升最高12.89%对UNINEXT提升更显著普遍7%~23%数据越少增益越明显完美解决小样本痛点。2. 小样本泛化场景以“人”为支持类“非人类”为新类别微调基线模型出现灾难性遗忘支持类性能明显下降HeROD新类别大涨10%~16%同时保持支持类精度不下降实现稳定泛化。3. 全数据场景性能不降反升对Grounding DINO稳定提升0.7~1.0%证明先验不限制模型表达。4. 消融实验关键结论空间先验视觉先验共同使用效果最强二者互补三阶段全注入 单阶段注入自适应MLP融合 固定加法融合先验增强匈牙利匹配是小样本涨点核心。四、优势与局限优势首次定义De-ROD基准为小样本ROD提供统一评测标准先验可解释、无额外标注真实场景落地成本极低即插即用插件式框架兼容所有DETR类检测器小样本增益极强数据越稀缺效果越明显计算开销小可直接部署到机器人、AR等端侧场景。局限空间先验仅支持基础方位词复杂相对关系旁边、中间、被遮挡仍需扩展语义先验依赖CLIPSeg医疗、工业等专业领域需适配领域专用视觉-语言模型暂未覆盖复杂逻辑推理与高阶关系先验。五、一句话总结HeROD通过将显式空间与语义启发式先验深度注入DETR候选筛选、预测融合、训练匹配三大核心阶段在不增加标注、不改动主干的前提下大幅提升指称目标检测在极低数据与小样本下的精度、收敛速度与泛化能力为真实场景落地提供了简单高效、可解释的新范式。

更多文章