图像-文本检索(ITR)是多模态信息处理领域中一项具有挑战性的任务。为了解决不同模态数据之间存在的语义鸿沟,现有方法主要集中在关注图像区域与句子片段之间的细粒度对齐上,忽略了语境背景信息的指导意义。西安电子科技大学空天地一体化综合业务网全国重点实验室的郭洁副教授等人将跨模态局部细粒度信息和全局的上下文背景信息进行融合,为检索提供更多的语义线索,提出了一种新的用于图像-文本检索的分层图对齐网络,分别构建图像和文本模态的特征图,并在多粒度共享空间进行特征聚合与重排,增强局部信息与全局信息的语义对应关系,最后通过三级相似函数进一步细化最终图像和文本特征,实现不同粒度下的特征对齐。所提出的模型在常用数据集上都优于现有的方法,并且通过广泛的实验表明了模型的有效性和优越性。
文章链接:https://ieeexplore.ieee.org/abstract/document/10050817
转自:https://xdhpc.xidian.edu.cn/info/1080/1313.htm