[ICME 2026] 华中科技大学CCIIP实验室2篇论文被ICME 2026全文录用!

来源: 浏览量: 日期:2026-03-18

CCIIP实验室2023级本科实习生伍彦哲和谢志昊(导师:魏巍)的论文“TopCom: Fast Token Compression with Top-K Selection for Efficient Video Understanding”和2024级硕士研究生马腾飞(导师:魏巍)的论文“DUAL: Dual-modal Unified Adaptation for Label noise”被 IEEE 多媒体与博览国际会议(ICME 2026)录用。ICME2026计划于202675日至9日在泰国曼谷召开。ICMEIEEE旗下的多媒体计算旗舰会议,同时也是CCF推荐的多媒体计算领域B类国际学术会议。

 

1. 论文标题:TopCom: Fast Token Compression with Top-K Selection for Efficient Video Understanding

论文作者:Yanzhe Wu#(23级本), Zhihao Xie#(23级本), WeiWei*

论文概述:视频大模型在处理长视频时面临严重的Token冗余问题,导致推理计算开销高,效率显著下降,而现有视频压缩方法缺乏对视频时空特性的充分利用,难以兼顾效率与性能。针对上述挑战,我们提出了一种无需训练的高效视频Token压缩框架TopCom,该方法通过基于Top-K相似度的自适应帧分组、结合组内动态/静态Token判别机制以及注意力引导的Token选择与融合策略,实现对冗余信息的有效压缩与关键语义的保留。实验结果表明,在仅保留约25%视觉token的条件下,TopCom显著降低推理延迟,并在多个视频理解基准上取得优于或可比原模型的性能,体现出良好的效率-性能权衡能力。

图:模型框架图

 

2. 论文标题:DUAL: Dual-modal Unified Adaptation for Label noise

论文作者:Tengfei Ma(24级硕), Weiran Pan(23级博), Wei Wei*

论文概述:视觉语言模型在含噪声标签数据集上进行模型微调,极易导致严重的性能退化问题。传统带噪声标签学习方法受单模态特性局限,易陷入确认偏误,且难以有效区分难分样本与真实噪声,限制了模型的鲁棒适配能力。针对上述问题,我们提出了一种面向标签噪声的双模态统一适配框架DUAL。该方法通过引入基于时空几何一致性的累积邻域差异CND实现精准的样本筛选,并以冻结文本原型为不变参考的图文重标记(ITR)修正标签,同时利用CLIP的双模态先验对微调过程进行校准。实验结果表明,在合成/真实世界多种噪声标签场景下,DUAL实现了更好的样本筛选和标签修正,在CIFAR100NWebVision等多个视觉分类基准上均显著优于现有方法性能,验证了其在标签噪声条件下实现视觉语言模型鲁棒微调的有效性。

图:基于CND的样本筛选(红色为噪声样本,蓝色为干净样本)