[ACM ToMM]:华科大认知计算与智能信息处理实验室论文被国际多媒体期刊ACM ToMM 录用!

来源: 浏览量: 日期:2025-11-12

CCIIP实验室23级博士瞿晓晔(导师:魏巍)的论文 “Alleviating Hallucination in Large Vision-Language Models with Active Retrieval Augmentation” 被国际多媒体期刊 ACM ToMM录用。ACM ToMM是中国计算机学会CCF推荐的B类国际学术期刊,在多媒体处理及人工智能领域享有较高学术声誉。

论文标题: Alleviating Hallucination in Large Vision-Language Models with Active Retrieval Augmentation

作者: Xiaoye Qu, Qiyuan Chen, Wei Wei*, Jiashuo Sun, Daizong Liu, Jianfeng Dong

内容简介:

   尽管大型视觉-语言模型(LVLMs)在图像理解方面展现出了非凡的能力,但这些模型经常生成看似合理但实际上不符合事实的回复,这种现象被称为“幻觉(Hallucination)”。近期,在大型语言模型(LLMs)中,通过从外部知识库检索信息来增强模型已被证明是减轻幻觉是极具前景的解决方案。然而,在LVLM领域,检索增强(Retrieval Augmentation)的应用明显滞后。此外,直接将检索增强迁移到LVLM中有时甚至会加剧模型的幻觉程度。针对这一研究空白和反直觉现象,如下图展示,本文提出了一种新颖的框架—主动检索增强的大型视觉-语言模型(Active Retrieval-Augmented LVLM, ARA),专门旨在通过以下三个关键维度来解决幻觉问题:

(1)基于层级结构解构检索目标:考虑到图像固有的层级特性,单纯的全图检索可能会引入噪声和不相关的结果。ARA提出了一种由粗到细(Coarse-to-Fine)的检索范式,将导致幻觉的目标对象从输入图像中分解出来,进行更精准的检索。
(2)精准定位有效检索方法并筛选可靠结果:通过对比分析,确定最有效的检索机制,并引入重排序(Reranking)策略过滤掉不可靠的检索结果,确保引入的是高质量的外部辅助知识。
(3)智能把控检索时机(Active Retrieval):过度或不必要的检索不仅增加计算成本,还可能引入干扰。ARA通过衡量模型的不确定性(Certainty)和输入模态间的互信息,仅在模型确定性低或知识匮乏时触发检索过程,而在高确定性期间避免不必要的检索。

    为了评估ARA模型在减少幻觉方面的能力,研究团队在四个主流基准数据集(POPE, MME, MMStar, MMBench)上,使用三种广泛使用的LVLM模型(LLaVA-1.5, Qwen-VL, 和mPLUG-Owl2)进行了广泛实验。实证观察表明,通过利用适配的检索机制和审慎的检索时机, ARA能够以更有效的检索方式和最小的检索频率,显著缓解大型视觉-语言模型中的幻觉问题。

模型架构图