[ICME 2026] 华中科技大学CCIIP实验室2篇论文被ICME 2026全文录用!-认知计算与智能信息处理实验室

[ICME 2026] 华中科技大学CCIIP实验室2篇论文被ICME 2026全文录用!

来源：浏览量：次日期：2026-03-18

CCIIP实验室2023级本科实习生伍彦哲和谢志昊（导师：魏巍）的论文“TopCom: Fast Token Compression with Top-K Selection for Efficient Video Understanding”和2024级硕士研究生马腾飞（导师：魏巍）的论文“DUAL: Dual-modal Unified Adaptation for Label noise”被 IEEE 多媒体与博览国际会议（ICME 2026）录用。ICME2026计划于2026年7月5日至9日在泰国曼谷召开。ICME是IEEE旗下的多媒体计算旗舰会议，同时也是CCF推荐的多媒体计算领域B类国际学术会议。

1. 论文标题：TopCom: Fast Token Compression with Top-K Selection for Efficient Video Understanding

论文作者：Yanzhe Wu#(23级本), Zhihao Xie#(23级本), WeiWei*

论文概述：视频大模型在处理长视频时面临严重的Token冗余问题，导致推理计算开销高，效率显著下降，而现有视频压缩方法缺乏对视频时空特性的充分利用，难以兼顾效率与性能。针对上述挑战，我们提出了一种无需训练的高效视频Token压缩框架TopCom，该方法通过基于Top-K相似度的自适应帧分组、结合组内动态/静态Token判别机制以及注意力引导的Token选择与融合策略，实现对冗余信息的有效压缩与关键语义的保留。实验结果表明，在仅保留约25%视觉token的条件下，TopCom显著降低推理延迟，并在多个视频理解基准上取得优于或可比原模型的性能，体现出良好的效率-性能权衡能力。

图：模型框架图

2. 论文标题：DUAL: Dual-modal Unified Adaptation for Label noise

论文作者：Tengfei Ma(24级硕), Weiran Pan(23级博), Wei Wei*

论文概述：视觉语言模型在含噪声标签数据集上进行模型微调，极易导致严重的性能退化问题。传统带噪声标签学习方法受单模态特性局限，易陷入确认偏误，且难以有效区分难分样本与真实噪声，限制了模型的鲁棒适配能力。针对上述问题，我们提出了一种面向标签噪声的双模态统一适配框架DUAL。该方法通过引入基于时空几何一致性的累积邻域差异CND实现精准的样本筛选，并以冻结文本原型为不变参考的图文重标记（ITR）修正标签，同时利用CLIP的双模态先验对微调过程进行校准。实验结果表明，在合成/真实世界多种噪声标签场景下，DUAL实现了更好的样本筛选和标签修正，在CIFAR100N、WebVision等多个视觉分类基准上均显著优于现有方法性能，验证了其在标签噪声条件下实现视觉语言模型鲁棒微调的有效性。

图：基于CND的样本筛选（红色为噪声样本，蓝色为干净样本）

华中科技大学

认知计算与智能信息处理实验室

[ICME 2026] 华中科技大学CCIIP实验室2篇论文被ICME 2026全文录用!

上一篇：[ACL 2026] 华中科技大学CCIIP实验室3篇论文被ACL 2026全文录用!

下一篇：[CVPR 2026] 华中科技大学CCIIP实验室5篇论文被CVPR 2026全文录用!