
第15届国际多媒体检索大会Main Track录用CCIIP实验室2022级研究生苗奥辉同学(导师:魏巍)的论文“HyHE: Enhancing Image-Text Retrieval through Hyperbolic Hierarchical Embeddings”。第15届国际多媒体检索大会(ICMR 2025)计划于2025年6月30日-7月3日在美国芝加哥市召开。ICMR是ACM旗下的多媒体计算旗舰会议,同时也是CCF推荐的多媒体计算领域B类国际学术会议。
论文标题:HyHE: Enhancing Image-Text Retrieval through Hyperbolic Hierarchical Embeddings
作者:Aohui Miao,Wei Wei*
内容简介:图文检索是跨模态(尤其是视觉-文本领域)研究领域的一项基础任务,然而现有方法主要聚焦于图-文对之间的一一对应关系,却忽略了二者之间内在的语义泛化差异性。通常,文本描述语义较为抽象概括,而图像则能够提供局部详细信息(比如特定对象像素级语义信息),因此,二者之间存在一对多的层次语义关系。因此,提出一种基于层次双曲空间嵌入的图文检索增强(HyHE)方法建模上述提到的一对多语义关系:(1)文本关键词-上下文关键词(WTW)1:N关系建模,即文本中单个词(如“狗”)对应多种不同上下文表述(如“黑狗”、“奔跑的狗”);(2)上下文关键词-图像实例(WTI)1:N关系建模,即单个上下文概念对应多个不同种类的具体图像实例。具体来说,HyHE利用模型抽取给定文本中(有意义)关键词,并在双曲空间中对上述两种关系进行(树状)层次化语义建模,同时还引入动态队列建模方式缓存检索历史中的上下文关键词特征,并扩大负样本集大小,以增强模型对相关特征的判别能力。通过在标准数据集(Flickr30K和MS-COCO)上实验显示,HyHE显著优于现有基准模型,其在图文检索任务中达到了当前最优性能。

图1 模型架构图