- 中文文本纠错模型体验这个场景非常使用的,尤其是在做文章发布系统平台,这个功能缺一不可,有时候编辑可能发文章的时候,文字会写错,或者其他错误,通过这个,就可以直接定位到哪个文字出现错误,然后告诉你,并纠正。
中文文本模型描述
- 中文文本纠错任务是一项NLP基础任务,其输入是一个可能含有语法错误的中文句子,输出是一个正确的中文句子。语法错误类型很多,有多字、少字、错别字等,目前最常见的错误类型是错别字。
模型效果如下:
- 输入:这洋的话,下一年的福气来到自己身上。
- 输出:这样的话,下一年的福气就会来到自己身上。
中文文本纠错模型介绍
- 输入一句中文文本,文本纠错技术对句子中存在拼写、语法、语义等错误进行自动纠正,输出纠正后的文本。主流的方法为seq2seq和seq2edits,常用的数据集包括NLPCC18和CGED等,我们最新的工作提供了高质量、多答案的测试集MuCGEC。
- 我们在体验平台输入
这洋的话,下以年的福气来到自己身上。
这段文字,然后点击执行测试
- 在这里我们可以看到我们输入的一段文字,其中
以
文字故意写错,通过平台检测,自动识别出来,然后给我替换正确的文字。
{
"Code": 200,
"Data": {
"computation_time": "0.40s",
"data": {
"output": "这样的话,下一年的福气会来到自己身上。"
}
},
"Message": "success",
"RequestId": "f8be9238-3c1f-4e50-8325-101031f64e3d",
"Success": true
}
- 这种体检用在自己发布平台,可以大大减少出错体验,确保准确率,保证发稿质量。
- 中文文本纠错任务就是检测出文本中的错误并且进行纠正,这跟小学语文老师给大家改作文的方式如出一辙,不仅要注明那个位置出错了,还要给出相应的改正措施。中文文本纠错任务包括两部分,一方面是检测任务,一方面是纠正任务,必须同时正确检测到错误的位置并且完成纠正才能算完整的纠错。