体验中文文本纠错模型

简介: 采用中文文本纠错模型体验该工具对常规词汇、非常规词汇、古文的错别字检测。

中文已成为全球使用最多的语言,翻译软件的大量使用为语言能力欠佳者提供非常大的便利。但是,有于文化差异,语言之间互译往往无法精准表达原文意思,甚至在翻译的时候出现较多错别字,给我们的阅读带来严重障碍。同时,互联网新生代在输入法的选择上,往往摒弃过去较为流行却很难上手的五笔输入法,选择共容易上手,但容易出现错误的拼音输入法。例如当你想输入“五笔”时,输入法缺出现的是“无比”或“务必”。当你辛辛苦苦编辑了几千上万字地文本,经过长时间思考后写出自认为比较好的文章后,往往因为里面没有发现的错别字而让读者对这篇文章的质量产生质疑。这时候需要一个工具来快速检测错别字,例如我们随机检测一上文本是否存在错别字。


结果显示将近100字的内容,检测时间为1.79s,发现错别字一个,并予以更正。一上检测的文本为较为常见的词组。以下我将对非常用词组进行检测,看是否能够正确显示。


对正确的文本随机选取两处并不常用的词组更改为错误的词汇后,发现测试结果并不那么理想,“缺”应为“却”,“地”更正为“的”。说明在测试过程中,如果没有与之相对应的关联词来确认此处正确的词汇,那么机器是无法识别此项错误的,此时甚至还不如word自带的查询功能靠谱,至少word还能告诉你此处不正常。


可见,如果仅仅依靠固定词组,错误词汇的前后几个字来推断文本是否出现错误,是不够准确的,因该通过整句话来判断此处词汇是否正确。

尽管modelscope忠文文本纠错模型能够对句子中存在的拼写、语法、语义等错误进行自动纠正,输出纠正后的文本,但它仍然显得有点“呆”。接下来我们测试下古文。此处引用一段隋炀帝诏书:发河南诸郡男女百余万开通济渠,自西苑引谷、洛水达于河,自板渚引河通于淮。”


诸军和诸郡在古文中出现频次较高,但结合前后的语句,此处应为诸郡。古文是已经存在的文献,从某种程度上讲他就是一种特殊用法,如果不能通过该模型找出文字编辑时候出现的错误,那么这款工具无疑显得有点失败,需要进一步学习,不需要创造多么复杂的工具,只需要通过不断的更新、学习,来纠正古文编辑中的错误,这点非常重要,且不涉及对逻辑、语法的判断。

相关文章
|
5月前
|
机器学习/深度学习 搜索推荐 安全
语音识别技术是一种将语音信号转换为文本或命令的技术,
语音识别技术是一种将语音信号转换为文本或命令的技术,
|
自然语言处理 知识图谱
中文大模型体验评测
中文大模型体验评测
498 42
|
人工智能 自然语言处理 安全
中文竞技场-中文大模型比比看
今天,大语言模型正在各个应用领域引起巨大的变革,并已经在搜索、金融、办公、安全、教育、游戏、电商、社交媒体等领域迅速普及和应用。例如微软将 GPT4应用于必应搜索引擎和 Office 办公软件。几乎每个企业都试图探索如何将AI融入业务和技术中去。但以中文为主的语言大模型却缺少应有的关注,今天让我们聚焦中文竞技场,看看各种中文大语言模型的表现吧~
63688 1
中文竞技场-中文大模型比比看
|
人工智能 数据挖掘 PyTorch
VLE基于预训练文本和图像编码器的图像-文本多模态理解模型:支持视觉问答、图文匹配、图片分类、常识推理等
VLE基于预训练文本和图像编码器的图像-文本多模态理解模型:支持视觉问答、图文匹配、图片分类、常识推理等
VLE基于预训练文本和图像编码器的图像-文本多模态理解模型:支持视觉问答、图文匹配、图片分类、常识推理等
|
自然语言处理 JavaScript Python
中文语言大模型体验小记
中文语言大模型体验小记
214 0
|
6月前
|
机器学习/深度学习 自然语言处理 PyTorch
Whisper对于中文语音识别与转写中文文本优化的实践(Python3.10)
阿里的FunAsr对Whisper中文领域的转写能力造成了一定的挑战,但实际上,Whisper的使用者完全可以针对中文的语音做一些优化的措施,换句话说,Whisper的“默认”形态可能在中文领域斗不过FunAsr,但是经过中文特殊优化的Whisper就未必了。
Whisper对于中文语音识别与转写中文文本优化的实践(Python3.10)
|
自然语言处理 PyTorch 算法框架/工具
一键式文本纠错工具,整合了BERT、MacBERT、ELECTRA、ERNIE等多种模型,让您立即享受纠错的便利和效果
一键式文本纠错工具,整合了BERT、MacBERT、ELECTRA、ERNIE等多种模型,让您立即享受纠错的便利和效果
一键式文本纠错工具,整合了BERT、MacBERT、ELECTRA、ERNIE等多种模型,让您立即享受纠错的便利和效果
|
自然语言处理
中文大模型体验
中文大模型体验
217 1
|
人工智能
中文大语言模型的分析
为了体现分析的逻辑性,将会采用序数词排序对三个领域进行报告测评。
225 0
|
机器学习/深度学习 编解码 自然语言处理
错字修改 | 布署1个中文文文本拼蟹纠错模型
错字修改 | 布署1个中文文文本拼蟹纠错模型
307 0