华中科技大学自然语言处理工具包(HUST-NLP)是华中科技大学认知计算与智能信息处理实验室(CCIIP)研发的一款轻量级的自然语言处理(NLP)处理套件,于2020年7月正式发布v1.0版本。此后半年时间内,项目研发小组成员在v1.0版本基础上,通过模型优化、数据扩充及训练策略调整三个方向对工具包各模块进行优化更新,从而推出HUST-NLP v1.1版本,更新后各模块在大多数数据集上性能指标均有所提升。
目前HUST-NLP-v1.1版本各模块性能指标更新如下
1. HUST-NLP分词模块:
数据集 |
V1.0_F1(%) |
V1.1_F1(%) |
公开数据集 |
人民日报 |
97.77 |
96.61 |
自标注数据集 |
百科 |
96.27 |
96.29 |
知道 |
92.23 |
91.73 |
知乎 |
95.59 |
96.08 |
微博 |
91.46 |
91.98 |
2. HUST-NLP词性标注模块:
数据集 |
V1.0_F1(%) |
V1.1_F1(%) |
公开数据集 |
人民日报 |
98.52 |
98.33 |
自标注数据集 |
百科 |
95.78 |
98.25 |
知道 |
93.36 |
97.39 |
知乎 |
93.19 |
99.28 |
微博 |
94.35 |
98.64 |
3. HUST-NLP命名实体识别模块:
数据集 |
V1.0_F1(%) |
V1.1_F1(%) |
公开数据集 |
人民日报 |
84.60 |
85.83 |
自标注数据集 |
百科 |
76.75 |
80.39 |
知道 |
73.68 |
88.59 |
知乎 |
79.82 |
78.79 |
微博 |
78.42 |
87.48 |
4. HUST-NLP句子分析模块:
百科
|
Precision (%) |
Recall (%) |
F1(%) |
V1.0 |
V1.1 |
V1.0 |
V1.1 |
V1.0 |
V1.1 |
肯定/否定判别 |
99.48 |
100.00 |
100.00 |
100.00 |
99.74 |
100.00 |
特指疑问句 |
0.00 |
0.00 |
0.00 |
0.00 |
0.00 |
0.00 |
句子分类 |
100.00 |
100.00 |
100.00 |
100.00 |
100.00 |
100.00 |
主谓宾标注 |
65.32 |
65.32 |
67.26 |
67.26 |
66.28 |
66.28 |
知道
|
Precision (%) |
Recall (%) |
F1(%) |
V1.0 |
V1.1 |
V1.0 |
V1.1 |
V1.0 |
V1.1 |
肯定/否定判别 |
98.45 |
100.00 |
99.48 |
98.39 |
98.96 |
99.19 |
特指疑问句 |
61.96 |
61.96 |
58.16 |
58.16 |
60.00 |
60.00 |
句子分类 |
82.50 |
94.88 |
82.50 |
94.88 |
82.50 |
94.88 |
主谓宾标注 |
51.05 |
51.05 |
44.49 |
44.49 |
47.54 |
47.54 |
知乎
|
Precision (%) |
Recall (%) |
F1(%) |
V1.0 |
V1.1 |
V1.0 |
V1.1 |
V1.0 |
V1.1 |
肯定/否定判别 |
98.48 |
99.21 |
100.00 |
100.00 |
99.24 |
99.60 |
特指疑问句 |
75.46 |
75.46 |
73.65 |
73.65 |
74.55 |
74.55 |
句子分类 |
96.50 |
98.84 |
96.50 |
98.84 |
96.50 |
98.84 |
主谓宾标注 |
63.75 |
63.75 |
57.67 |
57.67 |
60.56 |
60.56 |
微博
|
Precision (%) |
Recall (%) |
F1 (%) |
V1.0 |
V1.1 |
V1.0 |
V1.1 |
V1.0 |
V1.1 |
肯定/否定判别 |
98.97 |
97.66 |
98.97 |
100.00 |
98.97 |
98.81 |
特指疑问句 |
66.67 |
66.67 |
72.73 |
72.73 |
69.57 |
69.57 |
句子分类 |
89.00 |
92.28 |
89.00 |
92.28 |
89.00 |
92.28 |
主谓宾标注 |
55.16 |
55.16 |
48.43 |
48.43 |
51.58 |
51.58 |