实验室参赛团队在“2019语言与智能技术竞赛”比赛中喜获佳绩

来源: 浏览量: 日期:2019-07-04

2019520日,经过紧张激烈的角逐,“2019语言与智能技术竞赛结果提交截止,华科认知计算与智能信息处理实验室参赛团队喜获佳绩,在信息抽取这一赛道取得了第12名的好成绩。

2019语言与智能技术竞赛”由中国计算机学会、中国中文信息学会和百度公司联合举办,竞赛提供面向真实应用场景的大规模数据集,旨在为研究者提供学术交流平台,进一步提升语言理解与交互的研究水平,推动语言理解和人工智能领域技术和应用的发展。比赛共设立了机器阅读理解、知识驱动对话和信息抽取三个任务。

实验参赛项目为信息抽取,信息抽取(Information Extraction, IE)是从自然语言文本中抽取实体、属性、关系及事件等事实类信息的文本处理技术,是信息检索、智能问答、智能对话等人工智能应用的重要基础,一直受到业界的广泛关注。信息抽取任务涉及命名实体识别、指代消解、关系分类等复杂技术,极具挑战性。本次竞赛发布基于schema约束的SPO信息抽取任务,即在给定schema集合下,从自然语言文本中抽取出符合schema要求的SPO三元组知识。本次竞赛提供了业界规模最大的基于schema的中文信息抽取数据集(Schema based Knowledge Extraction, SKE),旨在为研究者提供学术交流平台,进一步提升中文信息抽取技术的研究水平,推动相关人工智能应用的发展。

225日启动报名发布数据,在本赛道,共有来自国内外高校及工业界的125支队伍(包括国内高校如清华大学、浙江大学、哈工大、国防科技大学、东北大学、中山大学等,以及科技企业如国双科技、万达信息股份有限公司、平安金服风险管理部等)至520日截止时提交了最终结果。比赛第一名最终由来自复旦大学的参赛队斩获。在历时近3个月的比赛时间里,CCIIP实验室的参赛队员们坚持不懈,从最开始的一百名开外,通过不懈努力上升到最终的第12名,虽未能跻身前十之列,但这种努力钻研、永不放弃的精神品质难得可贵,相信在之后的比赛中定可以取得更好的成绩。

l 排名网址:http://lic2019.ccf.org.cn/kg下图为比赛官网的最终结果排行榜截图:

l 竞赛详情介绍

1. 竞赛任务

给定schema约束集合及句子sent,其中schema定义了关系P以及其对应的主体S和客体O的类别,例如(S_TYPE:人物,P:妻子,O_TYPE:人物)、(S_TYPE:公司,P:创始人,O_TYPE:人物)等。 任务要求参评系统自动地对句子进行分析,输出句子中所有满足schema约束的SPO三元组知识Triples=[(S1, P1, O1), (S2, P2, O2)]

n 输入:  schema约束集合及句子sent

n 输出:  句子sent中包含的符合给定schema约束的三元组知识Triples

2. 数据简介

本次竞赛使用的SKE数据集是业界规模最大的基于schema的中文信息抽取数据集,其包含超过43万三元组数据、21万中文句子及50个已定义好的schema,表1中展示了SKE数据集中包含的50schema及对应的例子。数据集中的句子来自百度百科和百度信息流文本。数据集划分为17万训练集,2万验证集和2万测试集。其中训练集和验证集用于训练,可供自由下载,测试集分为两个,测试集1供参赛者在平台上自主验证,测试集2在比赛结束前一周发布,不能在平台上自主验证,并将作为最终的评测排名。

比赛用例: