文章来源于互联网:ICLR 2025 | 四川大学提出Test-time Adaptation新范式,突破查询偏移挑战


-
论文题目:Test-time Adaptation for Cross-modal Retrieval with Query Shift
-
论文地址:https://openreview.net/forum?id=BmG88rONaU
-
项目地址:https://hbinli.github.io/TCR/

-
从模态内分布和模态间差异两个层面,揭示了查询偏移导致检索性能下降的根本原因。
-
将 TTA 范式扩展至跨模态检索领域,通过调整模态内分布、模态间差异以及缓解检索过程中的高噪声现象,实现查询偏移下的鲁棒跨模态检索。
-
为跨模态检索 TTA 建立了统一的基准,涵盖 6 个广泛应用的数据集和 130 种风格各异、程度不同的模态损坏场景,支持包括 BLIP [2]、CLIP [3] 等主流预训练模型。



















-
仅查询偏移:只有查询模态的分布与源域数据不同。依据 [5],在 COCO [6] 和 Flickr [7] 数据集上分别引入了 16 种图像损坏和 15 种文本损坏(按照不同严重程度共计 130 种损坏)。为了保证仅查询偏移,先让模型在对应数据集上进行微调,随后将微调后的模型应用于仅有查询偏移的推理数据集中。
-
查询 – 候选偏移:查询模态和候选模态的分布都与源域数据不同。为了保证查询 – 候选偏移,本文直接将预训练模型应用于各领域的推理数据中,包括电商领域的 Fashion-Gen [8]、ReID 领域的 CUHK-PEDES [9] 和 ICFG-PEDES [10]、自然图像领域的 Nocaps [11] 等。


