CCIIP实验室2020级研究生刘宇航同学(导师:魏巍)论文“Depth-aware and Semantic Guided Relational Attention Network for Visual Question Answering(作者:刘宇航,魏巍*,彭道万,毛先领,何智勇,周潘)”被国际顶级SCI期刊IEEE Transactions on Multimedia (TMM)录用,IEEE TMM是计算机视觉领域顶级期刊,最新影响因子IF为8.182。
Depth-aware and Semantic Guided Relational Attention Network for Visual Question Answering,Yuhang Liu, Wei Wei*,Daowan Peng, Xian-Ling Mao, Zhiyong He, Pan Zhou, IEEE Transactions on Multimedia (TMM), 2022.
内容简介:视觉关系理解在多模态任务(比如视觉问答任务)中起着不可或缺的重要作用,这通常需要准确地推理给定问题中描述的对象之间的关系。然而,以往的研究工作通常存在以下不足:(1)2D空间关系推理的模糊性,使得准确地估计一对视觉对象的3D真实空间距离非常的困难;(2)缺乏语言-视觉关系的对齐,使得模型难以定位关键的目标,从而得到错误的答案。为此,我们首先对3D空间关系进行建模,即通过对原始的2D空间特征增加一维的深度信息,来构建目标在真实3D空间中的位置特征,然后,我们进一步提出深度感知和语义引导的关系注意力网络(DSGANet),显式利用构建的目标3D空间关系,来实现精确的关系对齐。我们在现有的数据集(GQA和VQA v2.0)上进行了实验,与现有的SOTA方法相比,我们提出的DSGANet模型能够具有竞争力的效果。
图1:空间关系推理的视觉问答样例
图2:DSGANet方法的整体框架图