CCIIP实验室自主研发的自然语言处理工具包（HUST-NLP）平台v2.0版本正式发布-认知计算与智能信息处理实验室

CCIIP实验室自主研发的自然语言处理工具包（HUST-NLP）平台v2.0版本正式发布

来源：浏览量：次日期：2021-01-23

2020年7月，华中科技大学自然语言处理工具包（HUST-NLP）是华中科技大学认知计算与智能信息处理实验室（CCIIP）推出了自主研发的一款轻量级的自然语言处理（NLP）处理套件HUST-NLP -v1.0版本。

2021年1月，CCIIP实验室通过持续自主研发，在之前的HUST-NLP -v1.0版本之上正式发布新的版本，即HUST-NLP -v2.0版本。HUST-NLP -v2.0版本在v1.0版本基础之上新增了三个重要的应用功能模块，即：文本纠错、情感分析和自动文本摘要，以提供更丰富强大的NLP技术能力。

访问地址：自然语言处理工具包平台（HUST-NLP）

目前HUST-NLP-v2.0版本新增功能如下：

1. 文本纠错

文本纠错（Text Corretion）是指根据上下文内容对中文文本进行错字纠错，主要的错误类型有拼写错误、叠字错误和标点符号错误等。

HUST-NLP文本纠错模块性能如下：

数据集	模型	检错			纠错
数据集	模型	P	R	F1	P	R	F1
自标注数据集	HUST-NLP	0.9723	0.8833	0.928	0.9469	0.8412	0.8909
自标注数据集	Faspell(EMNLP 2019)	0.9623	0.8305	0.8912	0.9218	0.7843	0.8475
公开数据集SIGHAN15	HUST-NLP	0.8558	0.8319	0.8436	0.5583	0.5807	0.5682
公开数据集SIGHAN15	Faspell(EMNLP 2019)	0.8778	0.7808	0.8265	0.6619	0.5934	0.6258

注：其中检错基于sentence-level，纠错采用的评估脚本基于m2score。

2. 情感分析

情感分析（Sentiment Analysis）是通过分析句子中的情感语义，对文本中的观点进行极性分类，同时给出对应的置信度。

HUST-NLP情感分析模块性能如下：

数据集	模型	ACC（%）
ChnSentiCorp	HUST-NLP	95.80%
ChnSentiCorp	SKEP	96.50%

SKEP：Sentiment Knowledge Enhanced Pre-training for Sentiment Analysis，ACL 2020

3. 自动文本摘要

自动文本摘要（Automatic Text Summarization）利用自然语言生成技术为新闻文本生成合适的标题。

HUST-NLP自动文本摘要模块性能如下：

	rouge-1	rouge-2	rouge-l
模型一	0.3088	0.1932	0.2899
模型二	0.3352	0.2086	0.3133

注：训练数据集为LCSTS-2的PART-I前10万条数据，测试数据集为PART-III

华中科技大学

认知计算与智能信息处理实验室

CCIIP实验室自主研发的自然语言处理工具包（HUST-NLP）平台v2.0版本正式发布

上一篇：CCIIP实验室自主研发的自然语言处理工具包（HUST-NLP）平台v1.1版本正式发布

下一篇：中文信息学会青年工作委2020年12月线上学术报告会圆满举办成功