2020年7月,华中科技大学自然语言处理工具包(HUST-NLP)是华中科技大学认知计算与智能信息处理实验室(CCIIP)推出了自主研发的一款轻量级的自然语言处理(NLP)处理套件HUST-NLP -v1.0版本。
2021年1月,CCIIP实验室通过持续自主研发,在之前的HUST-NLP -v1.0版本之上正式发布新的版本,即HUST-NLP -v2.0版本。HUST-NLP -v2.0版本在v1.0版本基础之上新增了三个重要的应用功能模块,即:文本纠错、情感分析和自动文本摘要,以提供更丰富强大的NLP技术能力。
访问地址:自然语言处理工具包平台(HUST-NLP)
目前HUST-NLP-v2.0版本新增功能如下:
1. 文本纠错
文本纠错(Text Corretion)是指根据上下文内容对中文文本进行错字纠错,主要的错误类型有拼写错误、叠字错误和标点符号错误等。
HUST-NLP文本纠错模块性能如下:
数据集 |
模型 |
检错 |
纠错 |
P |
R |
F1 |
P |
R |
F1 |
自标注数据集 |
HUST-NLP |
0.9723 |
0.8833 |
0.928 |
0.9469 |
0.8412 |
0.8909 |
Faspell(EMNLP 2019) |
0.9623 |
0.8305 |
0.8912 |
0.9218 |
0.7843 |
0.8475 |
公开数据集SIGHAN15 |
HUST-NLP |
0.8558 |
0.8319 |
0.8436 |
0.5583 |
0.5807 |
0.5682 |
Faspell(EMNLP 2019) |
0.8778 |
0.7808 |
0.8265 |
0.6619 |
0.5934 |
0.6258 |
注:其中检错基于sentence-level,纠错采用的评估脚本基于m2score。
2. 情感分析
情感分析(Sentiment Analysis)是通过分析句子中的情感语义,对文本中的观点进行极性分类,同时给出对应的置信度。
HUST-NLP情感分析模块性能如下:
数据集 |
模型 |
ACC(%) |
ChnSentiCorp |
HUST-NLP |
95.80% |
SKEP |
96.50% |
SKEP:Sentiment Knowledge Enhanced Pre-training for Sentiment Analysis,ACL 2020
3. 自动文本摘要
自动文本摘要(Automatic Text Summarization)利用自然语言生成技术为新闻文本生成合适的标题。
HUST-NLP自动文本摘要模块性能如下:
|
rouge-1 |
rouge-2 |
rouge-l |
模型一 |
0.3088 |
0.1932 |
0.2899 |
模型二 |
0.3352 |
0.2086 |
0.3133 |
注:训练数据集为LCSTS-2的PART-I前10万条数据,测试数据集为PART-III