ReCALL框架破解生成式与判别式的冲突,助力大模型在多模态检索领域实现超越SOTA的性能 | CVPR’26
首创“诊断-生成-校准”闭环机制
紫东太初团队及新加坡国立大学合作发表
用大型生成式模型做检索,效果反而不佳?
当多模态大模型展现出强大的图像和文本理解能力时,将其用于组合图像检索等任务似乎是最优解决方案。
实际上,将生成式模型强行转换为判别式检索器会导致性能显著下降,甚至无法完成原本应该能够轻松处理的任务。

这一难题已被紫东太初团队和新加坡国立大学的研究人员成功解决。他们开发的ReCALL框架通过独特的“诊断-生成-校准”闭环机制解决了范式冲突问题,使大模型在保持原有推理能力的同时,成为高效的检索器。
该成果已在CVPR 2026会议上被接受,并在CIRR和FashionIQ等基准测试中刷新了SOTA性能记录,为多模态大模型的应用开辟了一条新路径。
行业挑战:范式冲突导致的检索智能倒退
MLLM为什么难以胜任图像检索任务?研究团队指出问题的核心在于范式冲突(Paradigm Conflict)。
大模型原本擅长生成式推理,通过逐步分析视觉细节来理解场景。然而,当前大多数检索方法则采取判别式策略,将高维思考简化为单一向量进行相似度计算。
这种转变直接导致了能力退化(Capability Degradation)。

如图所示,在面对“两只相同品种狗在地板上”的查询时,原生的大模型能够准确识别目标。但经过传统微调后的检索器版本却无法正确找到这些图像。
实验数据显示,在原本可以达到100%准确率的子集上,调整后的检索器在CIRR数据集中R@1下降到62.33%,在FashionIQ中则降至55.80%,这表明模型并未学到新的知识反而失去了原有的推理能力。
解决方案:ReCALL框架四阶段校准
如何纠正检索器的偏差?研究团队提出了一个创新性的解决方案。
他们设计了一个名为ReCALL的通用框架,通过大模型原生推理信号来修正检索空间中的盲点。整个过程分为四个紧密相连的阶段:
第一阶段:基础适应(Baseline Adaptation)。研究人员使用InfoNCE损失函数将生成式大模型微调为基本的检索器,虽然赋予了其初步判断能力但也引发了“能力退化”的问题。
第二阶段:自我诊断(Diagnose)。在这个阶段,系统通过训练集找出那些被误判的例子,并详细分析这些误判的原因。
第三阶段:生成校正(Generate)。研究团队采用了一种细致入微的修改指令设计方法来纠正错误。具体来说,这个过程包含了意图分解与验证以及最小编辑合成两大步骤。
在第一步中,模型会将原始任务拆解为多个小任务,并逐一检查这些任务是否被正确执行。
第二步是针对发现的问题进行精简修改,从而生成新的指令来纠正错误。
这种设计使得框架能够生成从参考图到错图的纠错三元组,在视觉上精确反映出真实目标与干扰项之间的细微差别。
通过遵循“最小编辑原则”的方式,确保了新构建的数据集与原始数据保持一致性。最后还加入了VQA级别的语义一致过滤来剔除幻觉和噪音,保证训练信号的准确性。
第四阶段:打磨(Refine)。在这个最终阶段,系统会利用分组对比学习策略进一步优化检索器的能力。

通过这一系列操作,ReCALL框架不仅让模型找回了原有的推理能力,还将其完美融合到了自己的向量空间中。
实验效果:全场景刷新SOTA记录
ReCALL框架在多种主流基准测试中的表现令人印象深刻。

- 在CIRR开放域数据集上取得了55.52%的R@1新纪录,相比基线模型提高了8.38%。特别是在考察细粒度区分能力的部分达到了惊人的81.49%。
- 该框架在FashionIQ数据集中也表现出色,平均R@10达到57.04%,即使面对非常相似的服装干扰项也能精确识别目标。

实际应用案例显示,经过ReCALL校准后,模型能够准确地捕捉到“正视镜头”、“半袖”等细节条件并正确锁定目标。
结语
ReCALL的成功不仅在于性能上的突破,更重要的是它揭示了多模态大模型在向下游任务迁移过程中存在的隐形挑战,并提供了有效的解决方案。
大模型的检索适配不应仅仅依赖于对齐策略,而是需要保留和激发其生成式的推理能力。
通过教会模型如何自我诊断、纠正错误并优化自身,ReCALL不仅恢复了大模型的细粒度感知能力,还展示了生成与判别两大范式融合的可能性。
这一进展或许意味着多模态大模型在垂直领域应用中的“无损适配”成为可能。
论⽂链接:
https://arxiv.org/abs/2602.01639
项⽬代码:
https://github.com/RemRico/Recall

听雨