CCIIP实验室自主研发的自然语言处理工具包(HUST-NLP)平台v1.0版本正式发布

来源: 浏览量: 日期:2020-07-10

    华中科技大学自然语言处理工具包(HUST-NLP)是华中科技大学认知计算与智能信息处理实验室(CCIIP)研发的一款轻量级的自然语言处理(NLP)处理套件,其具有统一的数据预处理组件,并提供了多种高级模块,如Transformer、CRF等;在序列标注、文本分类等NLP子任务上,HUST-NLP还封装了各种模型可供直接调用。在兼顾易用性的同时,HUST-NLP在中文分词、命名实体识别、词性标注、和文本分类等多个任务中都能够取得较好的效果。如果你需要快速地部署完成一个NLP任务,或是高效地构建对比模型进行科研,HUST-NLP可能是你很好的选择。


目前HUST-NLP-v1.0版本功能如下:


1. 中文分词

中文分词(Chinese Word Segmentation, CWS)是指将连续的汉字序列切分为词语序列。

注:每个结点即为单独分开的词。

HUST-NLP分词模块性能如下:


数据集

F1%

公开数据集

人民日报

97.77

自标注数据集

百科

98.64

知道

95.03

知乎

97.42

微博

93.93


2. 词性标注

词性标注(Part-Of-Speech tagging, POS),是指是对连续的词语序列根据上下文内容进行词性的标注(如动词、名词、形容词等)。


注:括号中表示每个词的词性

HUST-NLP词性标注模块性能如下:


数据集

ACC(%)

公开数据集

人民日报

98.52

自标注数据集

百科

95.78

知道

93.36

知乎

93.19

微博

94.35


3. 命名实体识别

命名实体识别(Named Entity Recognition, NER)是指识别中文文本中具有特定意义的实体指代的边界和类型,主要包括人名、地名、专有名词等。


HUST-NLP命名实体识别模块性能如下:


数据集

F1%

公开数据集

人民日报

94.46

自标注数据集

百科

76.75

知道

73.68

知乎

79.82

微博

78.42


4. 依存句法分析

依存句法分析(Syntactic Dependency Parsing)是通过分析句子内各语言成分之间的依存关系来解释其句法结构。

5. 语义依存分析

语义依存分析(Semantic Dependency Parsing)是对句子各个语言单位之间的关联进行分析,其结果一般通过语义树来展现。

6. 句子分析

句子分析可分为以下部分,肯定/否定句判别,特指问句分类,句子分类,主谓宾标注。

(1)肯定/否定句判别:判断一个句子表达的是“肯定”还是“否定”的含义。

(2)特指问句分类:对特指问句进行提问类型的细化分类。

(3)句子分类:对每个句子进行类型上的区分,如陈述句、是非问句、正反问句、感叹句、特指问句等

(4)主谓宾标注:对每个句子的句法结构进行解析,将其主谓宾定状补的结构表示出来。


HUST-NLP句子分析模块性能如下:


自标注数据集

百科

知道


Precision(%)

Recall(%)

F1

Precision(%)

Recall(%)

F1

肯定/否定判别

0.9948

1.0000

0.9974

0.9845

0.9948

0.9896

特指疑问句

0.0000

0.0000

0.0000

0.6196

0.5816

0.6000

句子分类

1.0000

1.0000

1.0000

0.8250

0.8250

0.8250

主谓宾标注

0.6532

0.6726

0.6628

0.5105

0.4449

0.4754

自标注数据集

知乎

微博


Precision(%)

Recall(%)

F1

Precision(%)

Recall(%)

F1

肯定/否定判别

0.9848

1.0000

0.9924

0.9897

0.9897

0.9897

特指疑问句

0.7546

0.7365

0.7455

0.6667

0.7273

0.6957

句子分类

0.9650

0.9650

0.9650

0.8900

0.8900

0.8900

主谓宾标注

0.6375

0.5767

0.6056

0.5516

0.4843

0.5158