[ICMR 2025] 华科大认知计算与智能信息处理实验室论文被ACM国际多媒体检索大会ICMR2025录用!

来源: 浏览量: 日期:2025-04-26



15届国际多媒体检索大会Main Track录用CCIIP实验室2022级研究生苗奥辉同学(导师:魏巍)的论文“HyHE: Enhancing Image-Text Retrieval through Hyperbolic Hierarchical Embeddings”。第15届国际多媒体检索大会(ICMR 2025)计划于2025630-73日在美国芝加哥市召开。ICMRACM旗下的多媒体计算旗舰会议,同时也是CCF推荐的多媒体计算领域B类国际学术会议。


  • 论文标题:HyHE: Enhancing Image-Text Retrieval through Hyperbolic Hierarchical Embeddings

  • 作者:Aohui Miao,Wei Wei*

  • 内容简介:图文检索是跨模态(尤其是视觉-文本领域)研究领域的一项基础任务,然而现有方法主要聚焦于图-文对之间的一一对应关系,却忽略了二者之间内在的语义泛化差异性。通常,文本描述语义较为抽象概括,而图像则能够提供局部详细信息(比如特定对象像素级语义信息),因此,二者之间存在一对多的层次语义关系。因此,提出一种基于层次双曲空间嵌入的图文检索增强(HyHE)方法建模上述提到的一对多语义关系:(1文本关键词-上下文关键词(WTW1:N关系建模,即文本中单个词(如“狗”)对应多种不同上下文表述(如“黑狗”、“奔跑的狗”);(2上下文关键词-图像实例(WTI1:N关系建模,即单个上下文概念对应多个不同种类的具体图像实例。具体来说,HyHE利用模型抽取给定文本中(有意义)关键词,并在双曲空间中对上述两种关系进行(树状)层次化语义建模,同时还引入动态队列建模方式缓存检索历史中的上下文关键词特征,并扩大负样本集大小,以增强模型对相关特征的判别能力。通过在标准数据集(Flickr30KMS-COCO)上实验显示,HyHE显著优于现有基准模型,其在图文检索任务中达到了当前最优性能。

1 模型架构图