CCIIP实验室自主研发的自然语言处理工具包(HUST-NLP)平台v2.0版本正式发布

来源: 浏览量: 日期:2021-01-23

20207月,华中科技大学自然语言处理工具包(HUST-NLP)是华中科技大学认知计算与智能信息处理实验室(CCIIP)推出了自主研发的一款轻量级的自然语言处理(NLP)处理套件HUST-NLP -v1.0版本。

20211月,CCIIP实验室通过持续自主研发,在之前的HUST-NLP -v1.0版本之上正式发布新的版本,即HUST-NLP -v2.0版本。HUST-NLP -v2.0版本在v1.0版本基础之上新增了三个重要的应用功能模块,即:文本纠错情感分析自动文本摘要,以提供更丰富强大的NLP技术能力。


访问地址自然语言处理工具包平台(HUST-NLP)


目前HUST-NLP-v2.0版本新增功能如下:


1. 文本纠错


文本纠错(Text Corretion)是指根据上下文内容对中文文本进行错字纠错,主要的错误类型有拼写错误、叠字错误和标点符号错误等。

HUST-NLP文本纠错模块性能如下:


数据集

模型

检错

纠错

P

R

F1

P

R

F1

自标注数据集

HUST-NLP

0.9723

0.8833

0.928

0.9469

0.8412

0.8909

Faspell(EMNLP   2019)

0.9623

0.8305

0.8912

0.9218

0.7843

0.8475

公开数据集SIGHAN15

HUST-NLP

0.8558

0.8319

0.8436

0.5583

0.5807

0.5682

Faspell(EMNLP   2019)

0.8778

0.7808

0.8265

0.6619

0.5934

0.6258

注:其中检错基于sentence-level,纠错采用的评估脚本基于m2score


2. 情感分析


情感分析(Sentiment Analysis)是通过分析句子中的情感语义,对文本中的观点进行极性分类,同时给出对应的置信度。





HUST-NLP情感分析模块性能如下:


数据集

模型

ACC%

ChnSentiCorp

HUST-NLP

95.80%

SKEP

96.50%

SKEPSentiment Knowledge Enhanced Pre-training for Sentiment AnalysisACL 2020


3. 自动文本摘要

自动文本摘要(Automatic Text Summarization)利用自然语言生成技术为新闻文本生成合适的标题。

HUST-NLP自动文本摘要模块性能如下:


rouge-1

rouge-2

rouge-l

模型一

0.3088

0.1932

0.2899

模型二

0.3352

0.2086

0.3133

注:训练数据集为LCSTS-2PART-I10万条数据,测试数据集为PART-III