近日,人工智能领域的顶级国际会议IJCAI 2026论文录用结果揭晓,华中科技大学认知计算与智能信息处理实验室共有3篇论文被2026年第35届国际人工智能联合会议(IJCAI-ECAI 2026)计划于2026年8月15日-8月21日在德国不莱梅市召开。自1969年成立以来,IJCAI一直是全球人工智能社区的顶级会议,促进了人工智能研究突破性进展和成果的交流,在人工智能领域享有较高学术声誉。

1. 论文标题:Strikingness-Aware Evaluation for Temporal Knowledge Graph Reasoning (IJCAI 2026)
作者:Rikui Huang (22级博), Shengzhe Zhang (23级硕), Wei Wei*(导师)
内容简介:在人工智能领域,时序知识图谱推理(Temporal Knowledge Graph Reasoning,TKGR)旨在基于历史事件序列预测缺失事件(或者未来可能发生的事件),在金融风控、智能推荐、公共安全等场景中具有重要应用价值。当前主流TKGR评估体系默认所有事件具有相同重要性,但事实上,大量事件仅是高频重复的“琐碎事件”,模型即便通过模式记忆获得较高分数,也未必真正具备深层推理能力。相比之下,罕见且具有突出影响力的“显著事件”,通常因模型缺乏对复杂时序规律的理解与推理能力而被忽视。针对该问题,我们提出了一种“显著性感知”的时序知识图谱推理评估框架(Strikingness-aware TKGR Evaluation Framework),引入一种基于规则的显著性度量机制(Rule-Based Strikingness Measuring Framework),通过对比事件的实际发生与其基于时间规则推导出的同类事件预期发生,量化事件的显著性程度,并将该显著性指标作为权重因子融入MRR、Hits@k等核心指标用于模型评测。在四个标准TKG基准上系统性实验揭示了三个重要发现:(1)多数典型基线模型性能随事件显著性增加而显著下降,比如“黑天鹅”事件预测;(2)不同方法各有所长: 基于路径的方法在低显著性事件上表现更优,而基于表示的方法在高显著性事件上更胜一筹;(3)性能提升“假象”:通过设计的集成方法发现,其性能提升源于对琐碎事件的过度拟合,而非真正推理能力的增强。因此,希望该领域将关注点从“平均性能提升”转向“显著性预测”,推动时序知识图谱推理领域研究聚焦显著事件预测问题,尤其是罕见高显著性事件。

图1. RSMF框架图
2. 论文标题:RIVS: Mitigating Hallucination in Large Vision-Language Models via Representation Intervention on Visual Grounding Shift
作者:Xuanyu Yin (24级硕), Xiaoye Qu(24级博), Wei Wei*(导师)
内容简介:近年来,大型视觉语言模型(Large Vision-Language Models, LVLMs)在多模态理解与生成任务中展现出强大的能力,但“物体幻觉(Object Hallucination)”问题仍是制约模型可靠落地的重要瓶颈。模型常会生成图像中并不存在的物体或错误属性,这不仅影响生成质量,也限制了其在智能问答、自动驾驶、医疗辅助等高可信场景中的应用。现有工作多从训练策略或解码约束入手,却鲜有研究深入探究:幻觉是如何在生成过程中由模型内部表征逐步演化而来的?因此,我们主要从动态表征偏移的视角切入,揭示幻觉生成与视觉注意力衰减之间的关联,并提出一种无需额外训练、高效可插拔的表征干预方法 RIVS(Representation Intervention based on Visual Grounding Shift)。具体而言,团队设计了一种基于自适应阈值的检测机制,定位到生成过程中视觉注意力显著衰减的关键位置。实验表明,幻觉词元的出现往往与视觉注意力的急剧下降密切相关。基于上述观察,我们在一个小规模校准集上,利用注意力衰减前后的表征差异,直接构建出与幻觉相关的子空间——整个过程无需构造对比样本,也无需额外监督信号。推理阶段,RIVS通过在线投影干预方式,对中间隐藏状态中的“幻觉方向”进行抑制,从而有效降低幻觉生成,同时最大程度保留模型原有的语言表达与推理能力。在四个主流幻觉评测基准(如POPE、CHAIR等)和两个复杂推理数据集上实验表明,RIVS在长文本与短文本生成任务中均能够稳定、有效地缓解幻觉问题,在生成真实性与语义流畅性之间取得了良好平衡。该工作从模型内部表征演化机制角度,为理解和治理多模态大模型幻觉问题提供了新的研究思路,也为构建更加可信、可解释的大模型系统提供了重要支撑。实验室将持续围绕多模态大模型可信推理与安全生成开展深入研究,推动人工智能向更加可靠、可控和高可信方向发展。

图2. RIVS方法示意图
3. 论文标题:Re-weighting Cross-Modal Pairs via Rank Consistency for Noise-Robust Retrieval
作者:Weiran Pan (23级博), Wei Wei* (导师)
内容简介:在多模态人工智能领域,图像—文本对齐(Image-Text Alignment)是连接视觉与语言的重要基础任务,被广泛应用于跨模态检索、多模态大模型、智能推荐与内容理解等方向,其核心目标是学习统一的跨模态表征空间,使图像与对应文本能够实现精准匹配。然而,当前大规模图文数据通常来源于互联网自动采集,不可避免地包含大量语义不一致的“噪声图文对”(Noisy Correspondence),其会显著影响模型训练质量,甚至导致模型学习到错误的跨模态关联关系。现有研究大多依赖模型自身预测的相似度分数,对训练样本进行重加权,但模型在噪声数据上的预测本身并不可靠,容易高估错误图文对的重要性,从而进一步放大噪声影响。针对这一关键问题,我们团队提出了一种基于“排序一致性”(Ranking Consistency)的语义匹配程度估计方法。理论上,对于真正语义对齐的图文对,其图像I 和文本T在共享嵌入空间中应具有一致的语义邻域结构。换言之,当分别以图像I和文本T作为查询进行跨模态检索时,所得到的检索排序结果应保持高度一致。基于这一思想,我们利用归一化折损累计增益(NDCG)衡量跨模态与单模态检索结果之间的一致性,并将其作为训练样本的重加权依据。与传统依赖单样本预测分数的方法不同,我们的方法利用数据流形的全局结构信息进行语义评估,因此在复杂噪声环境下具有更强鲁棒性。多个国际主流跨模态检索基准上的实验结果表明,所提出的方法能够显著提升图文对齐性能,并有效缓解噪声数据带来的训练偏差。该研究为噪声环境下的多模态表示学习提供了新的解决思路,也为构建更加可靠、鲁棒的多模态大模型奠定了重要基础。未来,实验室将继续围绕多模态理解与生成、跨模态推理以及可信人工智能等方向开展深入研究,推动多模态智能技术迈向更高水平。

图3. RCR方法示意图