CCIIP实验室24级博士生邹世豪同学(导师:魏巍)的论文 “Appearance Discrepancy-guided Sequence Hybrid Masking for Robust Scene Text Recognition”被国际人工智能顶会(AAAI 2026)长文全文录用为Oral Presentation。第40届美国人工智能年会(AAAI 2026)计划于2026年1月20日-1月27日在新加坡召开。AAAI是中国计算机学会CCF推荐的A类国际学术会议,在人工智能及自然语言处理领域享有较高学术声誉。这次会议共收到破纪录的23,680篇有效投稿,录用率约17.6%。

论文标题:Appearance Discrepancy-guided Sequence Hybrid Masking for Robust Scene Text Recognition (Oral)
作者:Shihao Zou, Wei Wei*, Leyang Xu, Kaihe Xu, Wenfeng Xie
内容简介:掩码图像建模(Masked Image Modeling,MIM)已被广泛认可为通用视觉表征的自监督学习范式。然而,目前基于随机掩码的MIM方法在场景文本识别(Scene Text Recognition,STR)等特定领域中表现欠佳,其主要源于部分遮挡或形变导致的外观差异而引发的挑战。因此,提出了一种基于差异引导的序列混合掩码(DSHM)预训练框架,其主要通过衡量各图像块与各局部特征差异,以及实例级全局风格差异来综合计算差异化得分,用于:(1)优化序列混合掩码策略,优先以连贯块状形式掩码高差异Patch,同时保留部分随机掩码以保证训练稳定,从而将任务从像素级重建提升至更复杂的结构推理;(2) 差异化条件令牌,在解码器中编码各Patch的难度先验知识,引导解码器在解码过程中重点关注困难区域的重建,以实现自适应重建范式用于提升部分遮挡或文本扭曲场景下模型识别鲁棒性。通过在多个基准(如Union14M,以及中文场景下多个场景)数据集上实验显示所提模型均取得了SOTA性能表现。

DSHM模型框架图