[AAAI 2026] 华科大认知计算与智能信息处理实验室论文被国际人工智能顶级会议AAAI 2026全文录用!-认知计算与智能信息处理实验室

[AAAI 2026] 华科大认知计算与智能信息处理实验室论文被国际人工智能顶级会议AAAI 2026全文录用!

来源：浏览量：次日期：2025-11-10

CCIIP实验室24级博士生邹世豪同学（导师：魏巍）的论文 “Appearance Discrepancy-guided Sequence Hybrid Masking for Robust Scene Text Recognition”被国际人工智能顶会（AAAI 2026）长文全文录用为Oral Presentation。第40届美国人工智能年会（AAAI 2026）计划于2026年1月20日-1月27日在新加坡召开。AAAI是中国计算机学会CCF推荐的A类国际学术会议，在人工智能及自然语言处理领域享有较高学术声誉。这次会议共收到破纪录的23,680篇有效投稿，录用率约17.6%。

论文标题：Appearance Discrepancy-guided Sequence Hybrid Masking for Robust Scene Text Recognition (Oral)

作者：Shihao Zou, Wei Wei*, Leyang Xu, Kaihe Xu, Wenfeng Xie

内容简介：掩码图像建模（Masked Image Modeling，MIM）已被广泛认可为通用视觉表征的自监督学习范式。然而，目前基于随机掩码的MIM方法在场景文本识别（Scene Text Recognition，STR）等特定领域中表现欠佳，其主要源于部分遮挡或形变导致的外观差异而引发的挑战。因此，提出了一种基于差异引导的序列混合掩码（DSHM）预训练框架，其主要通过衡量各图像块与各局部特征差异，以及实例级全局风格差异来综合计算差异化得分，用于：（1）优化序列混合掩码策略，优先以连贯块状形式掩码高差异Patch，同时保留部分随机掩码以保证训练稳定，从而将任务从像素级重建提升至更复杂的结构推理；(2) 差异化条件令牌，在解码器中编码各Patch的难度先验知识，引导解码器在解码过程中重点关注困难区域的重建，以实现自适应重建范式用于提升部分遮挡或文本扭曲场景下模型识别鲁棒性。通过在多个基准（如Union14M，以及中文场景下多个场景）数据集上实验显示所提模型均取得了SOTA性能表现。

DSHM模型框架图

华中科技大学

认知计算与智能信息处理实验室

[AAAI 2026] 华科大认知计算与智能信息处理实验室论文被国际人工智能顶级会议AAAI 2026全文录用!

上一篇：【挑战杯获奖】CCIIP实验室魏巍老师指导项目获第十九届“挑战杯”揭榜挂帅专项赛道全国一等奖

下一篇：[WSDM 2026]华科大认知计算与智能信息处理实验室22级本科实习生李一航和刘卓同学的论文被国际信息检索与数据挖掘领域顶级会议WSDM 2026全文录用!