[ACM ToMM]:华科大认知计算与智能信息处理实验室论文被国际多媒体期刊ACM ToMM 录用!

来源: 浏览量: 日期:2026-02-05

CCIIP实验室23级博士瞿晓晔(导师:魏巍)的论文 “Mitigating Multilingual Hallucination in Large Vision-Language Models” 被国际多媒体期刊 ACM ToMM录用。ACM ToMM 是中国计算机学会CCF推荐的B类国际学术期刊,在多媒体处理及人工智能领域享有较高学术声誉。该工作针对大型视觉-语言模型在多语言场景下严重的幻觉问题,提出了首个通用的解决方案。

 

  • 论文标题 Mitigating Multilingual Hallucination in Large Vision-Language Models

  • 作者 Xiaoye Qu, Mingyang Song, Wei Wei*, Daizong Liu, Jianfeng Dong, Yu Cheng

  • 内容简介:

    尽管大型视觉-语言模型(LVLMs)在处理视觉和文本任务上展现了卓越的能力,但通常面临着严重的幻觉(Hallucination问题,即模型会生成看似合理但与图像内容不符的错误回答。现有的幻觉缓解方法主要集中在英语场景,然而,当使用非英语语言进行查询时,这种幻觉现象更为严重。目前尚无针对LVLM多语言幻觉问题的专门研究。

针对这一空白,本文进行了深入的实证分析,发现LVLM中的多语言幻觉是一个系统性问题,源于多语言能力的缺陷(无法准确遵循指令)和多模态对齐能力的不足。为此,本文提出了首个缓解多语言幻觉的框架多语言幻觉消除(Multilingual Hallucination Removal, MHR)。该框架通过两阶段训练策略,旨在同时提升高资源和低资源语言的抗幻觉能力:

 1)多语言指令微调(Multilingual SFT)提升指令遵循能力: 考虑到大多数非英语语言(特别是低资源语言)往往无法准确理解指令,导致模型输出无意义的回答。MHR的第一阶段通过多语言监督微调,显著增强了模型对不同语言指令的理解和遵循能力,为后续消除幻觉打下基础。

2)跨语言对齐构建幻觉感知数据(Cross-Lingual Alignment): 为了解决非英语语言缺乏高质量幻觉训练数据的问题,本文并未依赖昂贵的人工标注。相反,MHR充分利用LVLM的内在能力,提出了一种新颖的跨语言对齐方法。该方法首先针对每个图像-查询对生成多种语言的回复,然后利用语义距离度量(如LossBLEU)将这些回复与英语的高质量幻觉/非幻觉样本进行对齐,自动构建出用于偏好优化的正负样本对。

3)多语言直接偏好优化(Multilingual DPO): 基于上述自动构建的数据集,MHR在第二阶段利用直接偏好优化(DPO)算法,引导LVLM偏好非幻觉的回复,从而在不牺牲模型通用生成能力的前提下,显著抑制多语言环境下的幻觉生成。

   为了全面评估MHR框架的有效性,研究团队将传统的英语幻觉评估基准(POPE, MME, AMBER)扩展为多语言版本(POPE MUL, MME MUL, AMBER MUL),涵盖了13种语言。在主流模型LLaVA 1.5CogVLM上的广泛实验表明,MHR在高资源和低资源语言上均实现了幻觉生成的大幅减少,例如在POPE基准上平均提升了19.0个百分点,有力证明了该方法的通用性和有效性。

图: 多语言多模态幻觉缓解框架图