[ACM ToMM]：华科大认知计算与智能信息处理实验室论文被国际多媒体期刊ACM ToMM 录用!-认知计算与智能信息处理实验室

[ACM ToMM]：华科大认知计算与智能信息处理实验室论文被国际多媒体期刊ACM ToMM 录用!

来源：浏览量：次日期：2026-02-05

CCIIP实验室23级博士瞿晓晔（导师：魏巍）的论文 “Mitigating Multilingual Hallucination in Large Vision-Language Models” 被国际多媒体期刊 ACM ToMM录用。ACM ToMM 是中国计算机学会CCF推荐的B类国际学术期刊，在多媒体处理及人工智能领域享有较高学术声誉。该工作针对大型视觉-语言模型在多语言场景下严重的幻觉问题，提出了首个通用的解决方案。

论文标题： Mitigating Multilingual Hallucination in Large Vision-Language Models
作者： Xiaoye Qu, Mingyang Song, Wei Wei*, Daizong Liu, Jianfeng Dong, Yu Cheng
内容简介：

尽管大型视觉-语言模型（LVLMs）在处理视觉和文本任务上展现了卓越的能力，但通常面临着严重的“幻觉（Hallucination）”问题，即模型会生成看似合理但与图像内容不符的错误回答。现有的幻觉缓解方法主要集中在英语场景，然而，当使用非英语语言进行查询时，这种幻觉现象更为严重。目前尚无针对LVLM多语言幻觉问题的专门研究。

针对这一空白，本文进行了深入的实证分析，发现LVLM中的多语言幻觉是一个系统性问题，源于多语言能力的缺陷（无法准确遵循指令）和多模态对齐能力的不足。为此，本文提出了首个缓解多语言幻觉的框架—多语言幻觉消除（Multilingual Hallucination Removal, MHR）。该框架通过两阶段训练策略，旨在同时提升高资源和低资源语言的抗幻觉能力：

（1）多语言指令微调（Multilingual SFT）提升指令遵循能力：考虑到大多数非英语语言（特别是低资源语言）往往无法准确理解指令，导致模型输出无意义的回答。MHR的第一阶段通过多语言监督微调，显著增强了模型对不同语言指令的理解和遵循能力，为后续消除幻觉打下基础。

（2）跨语言对齐构建幻觉感知数据（Cross-Lingual Alignment）：为了解决非英语语言缺乏高质量幻觉训练数据的问题，本文并未依赖昂贵的人工标注。相反，MHR充分利用LVLM的内在能力，提出了一种新颖的跨语言对齐方法。该方法首先针对每个图像-查询对生成多种语言的回复，然后利用语义距离度量（如Loss或BLEU）将这些回复与英语的高质量“幻觉/非幻觉”样本进行对齐，自动构建出用于偏好优化的正负样本对。

（3）多语言直接偏好优化（Multilingual DPO）：基于上述自动构建的数据集，MHR在第二阶段利用直接偏好优化（DPO）算法，引导LVLM偏好非幻觉的回复，从而在不牺牲模型通用生成能力的前提下，显著抑制多语言环境下的幻觉生成。

为了全面评估MHR框架的有效性，研究团队将传统的英语幻觉评估基准（POPE, MME, AMBER）扩展为多语言版本（POPE MUL, MME MUL, AMBER MUL），涵盖了13种语言。在主流模型LLaVA 1.5和CogVLM上的广泛实验表明，MHR在高资源和低资源语言上均实现了幻觉生成的大幅减少，例如在POPE基准上平均提升了19.0个百分点，有力证明了该方法的通用性和有效性。

图：多语言多模态幻觉缓解框架图

华中科技大学

认知计算与智能信息处理实验室

[ACM ToMM]：华科大认知计算与智能信息处理实验室论文被国际多媒体期刊ACM ToMM 录用!

上一篇：[DASFAA 2026]: 华科大认知计算与智能信息处理实验室论文被数据库系统高级应用国际会议DASFAA 2026录用！

下一篇：[ICASSP 2026]: 华科大认知计算与智能信息处理实验室论文被IEEE 声学、语音和信号处理国际会议ICASSP 2026录用