CCIIP实验室2024级研究生尹璇宇(导师:魏巍)的论文“Mitigating Hallucinations in Large Vision-Language Models via Contextual Entropy Calibration”被第16届多媒体检索国际著名会议 (ICMR 2026)录用。ICME2026计划于2026年6月16日至19日在荷兰阿姆斯特丹召开。ICMR是ACM旗下的多媒体检索旗舰会议,同时也是CCF推荐的多媒体检索领域B类国际学术会议。

1. 论文标题:Mitigating Hallucinations in Large Vision-Language Models via Contextual Entropy Calibration
作者:Xuanyu Yin(24级硕), Daowan Peng, Wei Wei*
内容简介:大型视觉语言模型(LVLMs)作为人工智能领域的前沿技术,在多模态任务中展现出令人瞩目的性能突破。然而,一个长期困扰研究界的"物体幻觉"问题严重制约了这些模型的实际应用——模型时常会生成与视觉输入完全不一致的响应,这种"睁眼说瞎话"的现象严重影响了模型的可信度和实用性。为深入探究这一现象的内在机理,我们团队对多种主流LVLM架构进行了系统的内部注意力分布实证分析。研究发现,不同架构的模型在注意力分布的不均衡模式上存在显著差异,这一发现为我们理解物体幻觉的成因提供了重要线索。
基于这一洞察,我们创新性地引入了注意力回溯率概念,并在此基础上设计了上下文熵度量方法。该度量能够精准刻画生成响应在视觉输入、指令文本及历史生成内容三个关键组件之间注意力分布的均衡性,为区分幻觉词与非幻觉词提供了有力的理论工具。基于上述理论发现,我们提出了上下文熵校准(Contextual Entropy Calibration, CEC)方法——一种无需额外训练的智能解码策略。该方法的创新之处在于:(1)动态优化机制:在束搜索过程中实时引入上下文熵,智能引导模型优先选择具有更均衡跨模态注意力的候选词;(2)多维度建模:创新性地将输入序列划分为视觉、指令与历史生成三个维度,实现对其影响的联合建模;(3)零成本部署:无需额外训练或引入外部模型,可直接应用于现有LVLM系统。通过广泛实验验证表明,所提CEC方法在多个权威幻觉基准测试中均取得了显著优于现有方法的性能表现。这一成果不仅验证了方法在缓解LVLM对象幻觉问题方面的有效性,更展示了其在提升模型生成可靠性和可信度方面的巨大潜力。

图:CEC方法概念示意图
本研究为理解并解决LVLM物体幻觉问题提供了全新的理论视角和实用工具,对推动多模态大模型在医疗诊断、自动驾驶、智能客服等关键领域的安全可靠应用具有重要意义。未来,我们将继续深化相关研究,为构建更加可信、可控的人工智能系统贡献力量。
2. 论文标题:Unveiling PEFT Robustness to Noisy Labels in VLMs: A Gradient-Loss Decoupling Perspective
作者:Tengfei Ma, Weiran Pan, Wei Wei*
内容简介:参数高效微调(PEFT)技术已成为适配视觉语言模型(VLMs)的主流范式,但其在面对标签噪声时的鲁棒性表现一直缺乏系统性研究。本研究首次在8个基准数据集和多种噪声条件下,对代表性PEFT方法进行了全面评估,揭示了一个高度一致的鲁棒性层级规律:Tip-Adapter-F和LoRA等方法展现出卓越的噪声鲁棒性,而传统线性探测则遭遇显著性能退化。我们创新性地提出"梯度-损失解耦"机制来解释这一现象。理论分析与可视化结果表明,鲁棒架构在预测误差与梯度幅度间维持了"松散耦合",有效抑制高损失异常点(潜在错误标签)引发的破坏性参数更新。通过数学推导进一步证实,Tip-Adapter-F中的亲和力门控等架构约束能自然抑制噪声梯度,而线性探测的梯度幅度则与预测误差呈线性锁定。有趣的是,我们通过针对性干预测试(调节对数尺度以强制解耦)提升了线性探测模型的鲁棒性,并排除了参数量规模等替代解释。这项研究不仅为PEFT方法的选择提供了理论指导,更为构建鲁棒的多模态学习系统奠定了新基础。

图:评测结果