[MM 2024]: 华科大认知计算与智能信息处理实验室23级研究生廖心瑶同学的论文被第32届国际多媒体会议MM 2024全文录用!

来源: 浏览量: 日期:2024-07-22

 

CCIIP实验室2023级研究生廖心瑶同学(导师:魏巍)的论文 “UniQ: Unified Decoder with Task-specific Queries for Efficient Scene Graph Generation” 被第32届国际多媒体会议(MM 2024)长文全文录用。第32届国际多媒体会议(The 32th ACM International Conference on Multimedia)将于20241028日至111日在澳大利亚墨尔本举行。MM是中国计算机学会CCF推荐的A类国际学术会议,在计算机视觉和多媒体处理领域享有较高学术声誉。这次会议共收到4385篇有效投稿,仅有1149篇长文被录用,录用率约26%

 

  • 论文标题:UniQ: Unified Decoder with Task-specific Queries for Efficient Scene Graph Generation

  • 作者:Xinyao Liao, Wei Wei*, Dangyang Chen, Yuanyuan Fu

    内容简介:场景图生成(Scene Graph GenerationSGG)是图像识别领域常规任务之一,旨在从给定图片中识别实体并推理它们之间关系。区别于两阶段生成框架严重依赖于目标识别模块性能,现有的基于统一的端到端学习框架主要利用一组固定大小的可学习查询预测实体间关系三元组,但上述方法主要分为两类,即:基于单一解码器建模关系三元组的耦合特征,或利用多解码器分别提取主谓宾特征,但往往忽略了其中涉及的弱纠缠问题,即关系中涉及的实体需要三元组内共享耦合特征,并解耦视觉特征。因此,提出一种基于特定任务查询架构的统一解码器(UniQ),其中根据特定任务查询分别为主谓宾生成对应解耦的视觉特征,从而利用统一解码器在关系三元组中进行耦合特征建模。通过在主流测试集(Visual Genome)上实验显示,UniQ的性能均优于目前主流的单阶段和两阶段模型。

     

     

    1 UniQ算法框架(a) 图像特征提取器:将图像作为输入,生成图像稠密表示;(b)查询生成器:生成面向特定任务的关系感知查询; (c)关系三元组预测器:利用自注意力机制建模三元组内特征交互,并利用统一解码器提取各子任务视觉特征;(d)输出