[TMM]:计算机视觉国际顶级期刊IEEE Transactions on Multimedia (TMM)录用CCIIP实验室2020级研究生刘宇航同学论文"Depth-aware and Semantic Guided Relational Attention Network for Visual Question Answering"-认知计算与智能信息处理实验室

[TMM]:计算机视觉国际顶级期刊IEEE Transactions on Multimedia (TMM)录用CCIIP实验室2020级研究生刘宇航同学论文"Depth-aware and Semantic Guided Relational Attention Network for Visual Question Answering"

来源：浏览量：次日期：2022-06-29

CCIIP实验室2020级研究生刘宇航同学(导师：魏巍)论文“Depth-aware and Semantic Guided Relational Attention Network for Visual Question Answering（作者：刘宇航，魏巍*，彭道万，毛先领，何智勇，周潘）”被国际顶级SCI期刊IEEE Transactions on Multimedia (TMM)录用，IEEE TMM是计算机视觉领域顶级期刊，最新影响因子IF为8.182。

Depth-aware and Semantic Guided Relational Attention Network for Visual Question Answering，Yuhang Liu, Wei Wei*，Daowan Peng, Xian-Ling Mao, Zhiyong He, Pan Zhou, IEEE Transactions on Multimedia (TMM), 2022.

内容简介：视觉关系理解在多模态任务（比如视觉问答任务）中起着不可或缺的重要作用，这通常需要准确地推理给定问题中描述的对象之间的关系。然而，以往的研究工作通常存在以下不足：（1）2D空间关系推理的模糊性，使得准确地估计一对视觉对象的3D真实空间距离非常的困难；（2）缺乏语言-视觉关系的对齐，使得模型难以定位关键的目标，从而得到错误的答案。为此，我们首先对3D空间关系进行建模，即通过对原始的2D空间特征增加一维的深度信息，来构建目标在真实3D空间中的位置特征，然后，我们进一步提出深度感知和语义引导的关系注意力网络（DSGANet），显式利用构建的目标3D空间关系，来实现精确的关系对齐。我们在现有的数据集（GQA和VQA v2.0）上进行了实验，与现有的SOTA方法相比，我们提出的DSGANet模型能够具有竞争力的效果。

图1：空间关系推理的视觉问答样例

图2：DSGANet方法的整体框架图

华中科技大学

认知计算与智能信息处理实验室

[TMM]:计算机视觉国际顶级期刊IEEE Transactions on Multimedia (TMM)录用CCIIP实验室2020级研究生刘宇航同学论文"Depth-aware and Semantic Guided Relational Attention Network for Visual Question Answering"

上一篇：[CIKM 2022]:31届国际计算机学会信息与知识管理大会CIKM 2022全文录用CCIIP实验室19级研究王子扬、20级研究生刘逸帆以及21级研究生邹定同学论文！

下一篇：2022年度华中科技大学-南洋理工大学学术大讲堂-计算机学院专场-丛高教授讲座圆满举办成功