中文信息学会青年工作委2020年12月线上学术报告会圆满举办成功-认知计算与智能信息处理实验室

中文信息学会青年工作委2020年12月线上学术报告会圆满举办成功

来源：浏览量：次日期：2020-12-11

2020年12月5日，中文信息学会青工委学术报告会于线上成功举行，同时在线人数超过1500人以上。本次会议由中国中文信息学会青年工作委员会（青工委）和华中科技大学认知计算与智能信息处理实验室联合组织，应认知计算与智能信息处理实验室主任（青工委委员）魏巍老师的邀请，青工委委员中国人民大学徐君教授、复旦大学邱锡鹏教授、清华大学刘知远副教授、中科院自动化所刘康教授、北京理工大学毛先领副教授及南京大学黄书剑副教授参加了报告会。

报告会开幕时，青工委主任刘知远老师代表组织方进行报告会开幕致辞，随后，六位专家带来了精彩的学术报告。

首先中国人民大学徐君教授带来题为《突破概率排序准则的多元排序模型》的报告。排序在搜索和推荐系统中都起到重要作用。传统搜索排序模型的设计都遵循概率排序准则，但真实任务中每个文档并非真正相互独立，概率排序模型并非最优。在本次报告中，徐君老师介绍了突破概率排序准则的相关研究进展，重点介绍了在序贯依赖假设下的强化排序学习模型和全局依赖假设下的集合排序模型。最后，徐君老师介绍了工业界的应用和有关排序学习的一些新扩展。

复旦大学邱锡鹏教授介绍了《CoLAKE：语言-知识联合预训练模型》。尽管以BERT为代表的预训练语言模型在诸多自然语言处理任务上取得突破性进展，但许多工作表明这些预训练模型仍然存在知识匮乏的问题。现有研究大多数仅将预训练的知识图谱中的实体融入语言模型，并未建模实体知识的上下文，因此邱老师在报告会上介绍了其团队的最新工作——CoLAKE，该模型将语言与知识的上下文结合并构建统一的异构图，使用拓展的掩蔽语言模型在大规模无标注语料和知识图谱上进行预训练。实验表明，CoLAKE在实体分类、关系抽取、LAMA等知识驱动任务上取得了显著性能提升，因此CoLAKE可以为“语言-知识”联合场景中的大部分任务提供一种通用预训练模型。

清华大学刘知远副教授介绍了《知识指导的预训练语言模型》。为了克服数据驱动的深度学习模型需要大规模标注语料的问题，目前预训练语言模型正成为自然语言处理的研究热点，其能够从大规模无标注数据中学习到语言相关的模式特征。然而，诸如少样本实体和专业背景知识等外部信息仍然难以通过预训练语言模型学习。刘知远老师向大家介绍了知识指导的预训练语言模型，将知识图谱和知识库中的知识融合进现有的预训练语言模型，使预训练语言模型能够在外部知识的指导下达到更好的效果。刘老师通过ERNIE等模型展示了主流的知识融合方法，例如知识增强、知识支撑和知识约束，并给出了创新性引入结构化外部知识的建议。

中科院自动化所刘康教授带来题为《从向量到符号：端到端知识抽取新进展》的报告。基于符号表示的知识系统具有准确度高且易于理解的特点，但具有语义鸿沟问题，基于分布式表示的深度学习系统可以解决语义鸿沟问题，但语义不明确、不可解释且难以推理。本次报告从两种系统的融合角度出发，介绍了神经符号学习的三个核心问题，即知识表示(Embedding)、知识抽取(Extraction)和基于神经网络的符号计算模拟(Simulation)。最后，刘康教授介绍了自己在知识抽取的最新工作，通过端到端的知识自动生成建立语义数值向量到符号化知识的映射。

北京理工大学毛先领副教授带来题为《Similarity-preserved Hashing-Diffusing from Image Retrieval to Other Scenarios》的报告。报告首先介绍了相似度保留哈希算法的基本思想，随后介绍了该算法在图像检索中的应用，展现了其降低存储空间，提高查询速度的优良特性。毛老师还介绍了相似度保留哈希算法在其他场景下的应用，包括神经网络加速、社交网络分析、跨模态检索以及文本哈希。最后毛老师对哈希方法在自然语言处理领域的潜在应用进行了展望。

最后，南京大学的黄书剑副教授带来了题为《神经网络机器翻译中的对抗样本生成》的报告。会中，黄书剑老师归纳了文本对抗样本生成目前存在的三个核心问题：区别于连续的图像，对离散文本建模对抗生成较为困难；无法预知错误特征，生成对抗样本是无监督学习；无法直接建模对抗样本生成中对带噪数据的语义限制。作为应对，黄书剑老师接着介绍了实验室的最新工作：针对机器翻译系统，将生成对抗样本建模为“受限的马尔可夫决策过程”，该方法设计了基于词汇编辑的动作空间，并利用对抗学习方法构建语义变化判别器，约束了对样本的搜索范围。最后，黄书剑老师对提升机器翻译鲁棒性的可能途径进行了展望。

各位老师内容详实、精彩生动的报告给大家留下了深刻印象。本次报告会通过腾讯会议结合哔哩哔哩网站直播形式，吸引了国内众多对自然语言处理感兴趣的师生及工业界人士，最多同时有1555人次观看。针对报告的内容，众多同学通过弹幕提出自己的疑惑，与各位老师进行了进一步的探讨和交流。

华中科技大学

认知计算与智能信息处理实验室

中文信息学会青年工作委2020年12月线上学术报告会圆满举办成功

上一篇：CCIIP实验室自主研发的自然语言处理工具包（HUST-NLP）平台v2.0版本正式发布

下一篇：CCIIP实验室2019级研究生刘家邑、王赞博同学荣获华为奖学金