中文已成为全球使用最多的语言,翻译软件的大量使用为语言能力欠佳者提供非常大的便利。但是,有于文化差异,语言之间互译往往无法精准表达原文意思,甚至在翻译的时候出现较多错别字,给我们的阅读带来严重障碍。同时,互联网新生代在输入法的选择上,往往摒弃过去较为流行却很难上手的五笔输入法,选择共容易上手,但容易出现错误的拼音输入法。例如当你想输入“五笔”时,输入法缺出现的是“无比”或“务必”。当你辛辛苦苦编辑了几千上万字地文本,经过长时间思考后写出自认为比较好的文章后,往往因为里面没有发现的错别字而让读者对这篇文章的质量产生质疑。这时候需要一个工具来快速检测错别字,例如我们随机检测一上文本是否存在错别字。
结果显示将近100字的内容,检测时间为1.79s,发现错别字一个,并予以更正。一上检测的文本为较为常见的词组。以下我将对非常用词组进行检测,看是否能够正确显示。
对正确的文本随机选取两处并不常用的词组更改为错误的词汇后,发现测试结果并不那么理想,“缺”应为“却”,“地”更正为“的”。说明在测试过程中,如果没有与之相对应的关联词来确认此处正确的词汇,那么机器是无法识别此项错误的,此时甚至还不如word自带的查询功能靠谱,至少word还能告诉你此处不正常。
可见,如果仅仅依靠固定词组,错误词汇的前后几个字来推断文本是否出现错误,是不够准确的,因该通过整句话来判断此处词汇是否正确。
尽管modelscope忠文文本纠错模型能够对句子中存在的拼写、语法、语义等错误进行自动纠正,输出纠正后的文本,但它仍然显得有点“呆”。接下来我们测试下古文。此处引用一段隋炀帝诏书:发河南诸郡男女百余万开通济渠,自西苑引谷、洛水达于河,自板渚引河通于淮。”
诸军和诸郡在古文中出现频次较高,但结合前后的语句,此处应为诸郡。古文是已经存在的文献,从某种程度上讲他就是一种特殊用法,如果不能通过该模型找出文字编辑时候出现的错误,那么这款工具无疑显得有点失败,需要进一步学习,不需要创造多么复杂的工具,只需要通过不断的更新、学习,来纠正古文编辑中的错误,这点非常重要,且不涉及对逻辑、语法的判断。