图像-文本检索(ITR)是多模态信息处理领域中一项具有挑战性的任务。为了解决不同模态数据之间存在的语义鸿沟,现有方法主要集中在关注图像区域与句子片段之间的细粒度对齐上,忽略了语境背景信息的指导意义。西安电子科技大学空天地一...