体验中文文本纠错模型

简介: 采用中文文本纠错模型体验该工具对常规词汇、非常规词汇、古文的错别字检测。

中文已成为全球使用最多的语言,翻译软件的大量使用为语言能力欠佳者提供非常大的便利。但是,有于文化差异,语言之间互译往往无法精准表达原文意思,甚至在翻译的时候出现较多错别字,给我们的阅读带来严重障碍。同时,互联网新生代在输入法的选择上,往往摒弃过去较为流行却很难上手的五笔输入法,选择共容易上手,但容易出现错误的拼音输入法。例如当你想输入“五笔”时,输入法缺出现的是“无比”或“务必”。当你辛辛苦苦编辑了几千上万字地文本,经过长时间思考后写出自认为比较好的文章后,往往因为里面没有发现的错别字而让读者对这篇文章的质量产生质疑。这时候需要一个工具来快速检测错别字,例如我们随机检测一上文本是否存在错别字。


结果显示将近100字的内容,检测时间为1.79s,发现错别字一个,并予以更正。一上检测的文本为较为常见的词组。以下我将对非常用词组进行检测,看是否能够正确显示。


对正确的文本随机选取两处并不常用的词组更改为错误的词汇后,发现测试结果并不那么理想,“缺”应为“却”,“地”更正为“的”。说明在测试过程中,如果没有与之相对应的关联词来确认此处正确的词汇,那么机器是无法识别此项错误的,此时甚至还不如word自带的查询功能靠谱,至少word还能告诉你此处不正常。


可见,如果仅仅依靠固定词组,错误词汇的前后几个字来推断文本是否出现错误,是不够准确的,因该通过整句话来判断此处词汇是否正确。

尽管modelscope忠文文本纠错模型能够对句子中存在的拼写、语法、语义等错误进行自动纠正,输出纠正后的文本,但它仍然显得有点“呆”。接下来我们测试下古文。此处引用一段隋炀帝诏书:发河南诸郡男女百余万开通济渠,自西苑引谷、洛水达于河,自板渚引河通于淮。”


诸军和诸郡在古文中出现频次较高,但结合前后的语句,此处应为诸郡。古文是已经存在的文献,从某种程度上讲他就是一种特殊用法,如果不能通过该模型找出文字编辑时候出现的错误,那么这款工具无疑显得有点失败,需要进一步学习,不需要创造多么复杂的工具,只需要通过不断的更新、学习,来纠正古文编辑中的错误,这点非常重要,且不涉及对逻辑、语法的判断。

相关文章
|
19天前
|
机器学习/深度学习 人工智能 自然语言处理
Baichuan-Omni-1.5:百川智能开源全模态理解与生成模型,支持文本、图像、音频和视频的多模态输入和输出
Baichuan-Omni-1.5 是百川智能开源的全模态理解模型,支持文本、图像、音频和视频的多模态输入和输出,显著提升多模态交互体验。
123 22
Baichuan-Omni-1.5:百川智能开源全模态理解与生成模型,支持文本、图像、音频和视频的多模态输入和输出
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
Emotion-LLaMA:用 AI 读懂、听懂、看懂情绪,精准捕捉文本、音频和视频中的复杂情绪
Emotion-LLaMA 是一款多模态情绪识别与推理模型,融合音频、视觉和文本输入,通过特定情绪编码器整合信息,广泛应用于人机交互、教育、心理健康等领域。
125 11
Emotion-LLaMA:用 AI 读懂、听懂、看懂情绪,精准捕捉文本、音频和视频中的复杂情绪
|
1月前
|
人工智能 自然语言处理
联通元景:中国联通开源中文原生的文生图模型,优化对中文长文本和成语语义等理解
联通元景(UniT2IXL)是中国联通AI推出的中文原生文生图模型,基于国产昇腾AI平台,优化中文语义理解,支持高质量图像生成。
135 20
联通元景:中国联通开源中文原生的文生图模型,优化对中文长文本和成语语义等理解
|
2月前
|
Serverless
文本数据信息提取体验
文本数据信息提取体验
文本数据信息提取体验
|
5月前
|
机器学习/深度学习 人工智能 编解码
深入探索AI文生语音技术的奥秘:从文本输入到逼真语音输出的全链条语音合成过程解析
【9月更文挑战第2天】深入探索AI文生语音技术的奥秘:从文本输入到逼真语音输出的全链条语音合成过程解析
 深入探索AI文生语音技术的奥秘:从文本输入到逼真语音输出的全链条语音合成过程解析
|
6月前
|
人工智能
多模态AI单词助记模型体验
一文带你了解多模态AI单词助记模型的优与劣
283 1
|
人工智能 数据挖掘 PyTorch
VLE基于预训练文本和图像编码器的图像-文本多模态理解模型:支持视觉问答、图文匹配、图片分类、常识推理等
VLE基于预训练文本和图像编码器的图像-文本多模态理解模型:支持视觉问答、图文匹配、图片分类、常识推理等
VLE基于预训练文本和图像编码器的图像-文本多模态理解模型:支持视觉问答、图文匹配、图片分类、常识推理等
|
9月前
|
机器学习/深度学习 编解码 人工智能
OpenAI Sora:“60s超长长度”、“超强语义理解”、“世界模型”。浅析文生视频模型Sora以及技术原理简介
OpenAI,永远快别人一步!!!! 像ChatGPT成功抢了Claude的头条一样,这一次,谷歌核弹级大杀器Gemini 1.5才推出没几个小时,全世界的目光就被OpenAI的Sora抢了去。 100万token的上下文,仅靠一本语法书就学会了一门全新的语言,如此震撼的技术进步,在Sora的荣光下被衬得暗淡无光,着实令人唏嘘。 三个词总结 “60s超长长度”、“单视频多角度镜头”,“世界模型”
366 0
OpenAI Sora:“60s超长长度”、“超强语义理解”、“世界模型”。浅析文生视频模型Sora以及技术原理简介
|
自然语言处理 JavaScript Python
中文语言大模型体验小记
中文语言大模型体验小记
229 0
|
自然语言处理 PyTorch 算法框架/工具
一键式文本纠错工具,整合了BERT、MacBERT、ELECTRA、ERNIE等多种模型,让您立即享受纠错的便利和效果
一键式文本纠错工具,整合了BERT、MacBERT、ELECTRA、ERNIE等多种模型,让您立即享受纠错的便利和效果
一键式文本纠错工具,整合了BERT、MacBERT、ELECTRA、ERNIE等多种模型,让您立即享受纠错的便利和效果