CCIIP实验室自主研发的自然语言处理工具包(HUST-NLP)平台v1.1版本正式发布

来源: 浏览量: 日期:2021-01-23

华中科技大学自然语言处理工具包(HUST-NLP)是华中科技大学认知计算与智能信息处理实验室(CCIIP)研发的一款轻量级的自然语言处理(NLP)处理套件,于20207月正式发布v1.0版本。此后半年时间内,项目研发小组成员在v1.0版本基础上,通过模型优化、数据扩充及训练策略调整三个方向对工具包各模块进行优化更新,从而推出HUST-NLP v1.1版本,更新后各模块在大多数数据集上性能指标均有所提升。



目前HUST-NLP-v1.1版本各模块性能指标更新如下

1. HUST-NLP分词模块:

数据集

V1.0_F1(%)

V1.1_F1(%)

公开数据集

人民日报

97.77

96.61

自标注数据集

百科

96.27

96.29

知道

92.23

91.73

知乎

95.59

96.08

微博

91.46

91.98

2. HUST-NLP词性标注模块:

数据集

V1.0_F1(%)

V1.1_F1(%)

公开数据集

人民日报

98.52

98.33

自标注数据集

百科

95.78

98.25

知道

93.36

97.39

知乎

93.19

99.28

微博

94.35

98.64

3. HUST-NLP命名实体识别模块:

数据集

V1.0_F1(%)

V1.1_F1(%)

公开数据集

人民日报

84.60

85.83

自标注数据集

百科

76.75

80.39

知道

73.68

88.59

知乎

79.82

78.79

微博

78.42

87.48

4. HUST-NLP句子分析模块:

百科


Precision (%)

Recall (%)

F1(%)

V1.0

V1.1

V1.0

V1.1

V1.0

V1.1

肯定/否定判别

99.48

100.00

100.00

100.00

99.74

100.00

特指疑问句

0.00

0.00

0.00

0.00

0.00

0.00

句子分类

100.00

100.00

100.00

100.00

100.00

100.00

主谓宾标注

65.32

65.32

67.26

67.26

66.28

66.28

知道


Precision (%)

Recall (%)

F1(%)

V1.0

V1.1

V1.0

V1.1

V1.0

V1.1

肯定/否定判别

98.45

100.00

99.48

98.39

98.96

99.19

特指疑问句

61.96

61.96

58.16

58.16

60.00

60.00

句子分类

82.50

94.88

82.50

94.88

82.50

94.88

主谓宾标注

51.05

51.05

44.49

44.49

47.54

47.54

知乎


Precision (%)

Recall (%)

F1(%)

V1.0

V1.1

V1.0

V1.1

V1.0

V1.1

肯定/否定判别

98.48

99.21

100.00

100.00

99.24

99.60

特指疑问句

75.46

75.46

73.65

73.65

74.55

74.55

句子分类

96.50

98.84

96.50

98.84

96.50

98.84

主谓宾标注

63.75

63.75

57.67

57.67

60.56

60.56

微博


Precision (%)

Recall (%)

F1 (%)

V1.0

V1.1

V1.0

V1.1

V1.0

V1.1

肯定/否定判别

98.97

97.66

98.97

100.00

98.97

98.81

特指疑问句

66.67

66.67

72.73

72.73

69.57

69.57

句子分类

89.00

92.28

89.00

92.28

89.00

92.28

主谓宾标注

55.16

55.16

48.43

48.43

51.58

51.58