[TMM]:计算机视觉国际顶级期刊IEEE Transactions on Multimedia (TMM)录用CCIIP实验室2020级研究生刘宇航同学论文"Depth-aware and Semantic Guided Relational Attention Network for Visual Question Answering"

来源: 浏览量: 日期:2022-06-29

CCIIP实验室2020级研究生刘宇航同学(导师:魏巍)论文“Depth-aware and Semantic Guided Relational Attention Network for Visual Question Answering(作者:刘宇航,魏巍*,彭道万,毛先领,何智勇,周潘)被国际顶级SCI期刊IEEE Transactions on Multimedia (TMM)录用,IEEE TMM是计算机视觉领域顶级期刊,最新影响因子IF8.182


Depth-aware and Semantic Guided Relational Attention Network for Visual Question AnsweringYuhang Liu, Wei Wei*Daowan Peng, Xian-Ling Mao, Zhiyong He, Pan Zhou, IEEE Transactions on Multimedia (TMM), 2022.


内容简介:视觉关系理解在多模态任务(比如视觉问答任务)中起着不可或缺的重要作用,这通常需要准确地推理给定问题中描述的对象之间的关系。然而,以往的研究工作通常存在以下不足:(12D空间关系推理的模糊性,使得准确地估计一对视觉对象的3D真实空间距离非常的困难;(2)缺乏语言-视觉关系的对齐,使得模型难以定位关键的目标,从而得到错误的答案。为此,我们首先对3D空间关系进行建模,即通过对原始的2D空间特征增加一维的深度信息,来构建目标在真实3D空间中的位置特征,然后,我们进一步提出深度感知和语义引导的关系注意力网络(DSGANet),显式利用构建的目标3D空间关系,来实现精确的关系对齐。我们在现有的数据集(GQAVQA v2.0)上进行了实验,与现有的SOTA方法相比,我们提出的DSGANet模型能够具有竞争力的效果。


1:空间关系推理的视觉问答样例

 

2DSGANet方法的整体框架图