体验中文文本纠错模型

简介: 采用中文文本纠错模型体验该工具对常规词汇、非常规词汇、古文的错别字检测。

中文已成为全球使用最多的语言,翻译软件的大量使用为语言能力欠佳者提供非常大的便利。但是,有于文化差异,语言之间互译往往无法精准表达原文意思,甚至在翻译的时候出现较多错别字,给我们的阅读带来严重障碍。同时,互联网新生代在输入法的选择上,往往摒弃过去较为流行却很难上手的五笔输入法,选择共容易上手,但容易出现错误的拼音输入法。例如当你想输入“五笔”时,输入法缺出现的是“无比”或“务必”。当你辛辛苦苦编辑了几千上万字地文本,经过长时间思考后写出自认为比较好的文章后,往往因为里面没有发现的错别字而让读者对这篇文章的质量产生质疑。这时候需要一个工具来快速检测错别字,例如我们随机检测一上文本是否存在错别字。


结果显示将近100字的内容,检测时间为1.79s,发现错别字一个,并予以更正。一上检测的文本为较为常见的词组。以下我将对非常用词组进行检测,看是否能够正确显示。


对正确的文本随机选取两处并不常用的词组更改为错误的词汇后,发现测试结果并不那么理想,“缺”应为“却”,“地”更正为“的”。说明在测试过程中,如果没有与之相对应的关联词来确认此处正确的词汇,那么机器是无法识别此项错误的,此时甚至还不如word自带的查询功能靠谱,至少word还能告诉你此处不正常。


可见,如果仅仅依靠固定词组,错误词汇的前后几个字来推断文本是否出现错误,是不够准确的,因该通过整句话来判断此处词汇是否正确。

尽管modelscope忠文文本纠错模型能够对句子中存在的拼写、语法、语义等错误进行自动纠正,输出纠正后的文本,但它仍然显得有点“呆”。接下来我们测试下古文。此处引用一段隋炀帝诏书:发河南诸郡男女百余万开通济渠,自西苑引谷、洛水达于河,自板渚引河通于淮。”


诸军和诸郡在古文中出现频次较高,但结合前后的语句,此处应为诸郡。古文是已经存在的文献,从某种程度上讲他就是一种特殊用法,如果不能通过该模型找出文字编辑时候出现的错误,那么这款工具无疑显得有点失败,需要进一步学习,不需要创造多么复杂的工具,只需要通过不断的更新、学习,来纠正古文编辑中的错误,这点非常重要,且不涉及对逻辑、语法的判断。

相关文章
|
JSON 运维 JavaScript
进程管理工具PM2在python项目中的使用
说到进程管理,后端和运维的同学都不陌生。生产项目以及一些脚本任务都需要进行进程管理。现在市场上用得最多的当属supervisor了,但是它只能运行在 Unix-Like 的系统上,也就是说supervisor不能再windows上运行。 我们这里说的是另外一个进程管理工具PM2,PM2不仅仅适用于Unix-Like系统,同样适用于windows系统。这点对于开发者来说也是个福音,下面我们来说说PM2的简单使用。
1396 0
进程管理工具PM2在python项目中的使用
|
11月前
|
人工智能 并行计算 监控
深入剖析 Qwen2.5 - 32B 模型在 VLLM 上的单机三卡部署与运行
本文深入探讨了Qwen2.5 - 32B模型在VLLM框架上的部署过程,从模型下载、启动命令、资源占用分析到GPU资源分配及CUDA图应用,详述了大模型运行的挑战与优化策略,强调了硬件资源规划与技术调优的重要性。
6407 2
|
10月前
|
PyTorch API 算法框架/工具
AscendC从入门到精通系列(四)使用Pybind调用AscendC算子
本文介绍了如何通过Pybind11在PyTorch框架中调用自定义的Ascend C算子。首先,通过编写算子的C++实现和pybind11封装,将算子功能暴露给Python。接着,构建Python调用脚本,利用torch接口生成数据并调用封装好的算子模块。最后,通过CMake配置文件编译整个项目,实现从算子开发到测试的完整流程。
|
人工智能 机器人 开发者
实现定制化 AutoGPT 实战
在前期学习基础上,本文指导如何运用AutoGPT完成如生成文件及查询信息并输出到文件等ChatGPT难以实现的任务。首先确保拥有稳定网络、已配置好的AutoGPT环境及可用token。
|
编解码 机器人 C++
ROS2教程07 ROS2自定义消息接口
这篇文章是关于如何在ROS2(Robot Operating System 2)中创建和使用自定义消息类型的教程,包括消息类型的定义、特点、命令行工具的使用,以及如何编写和测试自定义消息类型接口的步骤。
660 0
ROS2教程07 ROS2自定义消息接口
|
存储 监控 测试技术
Agent Workflow
【6月更文挑战第25天】
628 3
|
机器学习/深度学习 运维 监控
智能化运维:机器学习在故障预测中的应用
【6月更文挑战第18天】本文将探讨如何利用机器学习技术提高运维效率,特别是在故障预测方面。通过分析传统运维面临的挑战和机器学习带来的机遇,我们将深入讨论构建一个有效的故障预测模型所需的关键步骤,包括数据收集、特征工程、模型选择和评估。文章还将展示一个实际的故障预测案例研究,以证明机器学习方法的有效性。最后,我们将讨论实施智能化运维时可能遇到的挑战和未来的发展方向。
449 2
|
Ubuntu Unix Linux
【Linux入门指南:掌握开源操作系统的基础知识】(一)
【Linux入门指南:掌握开源操作系统的基础知识】
351 1
【Linux入门指南:掌握开源操作系统的基础知识】(一)
modelscope-funasr怎么拿验证集评估微调后的模型效果呢
【2月更文挑战第19天】modelscope-funasr怎么拿验证集评估微调后的模型效果呢
348 1
|
自然语言处理 PyTorch 算法框架/工具
一键式文本纠错工具,整合了BERT、MacBERT、ELECTRA、ERNIE等多种模型,让您立即享受纠错的便利和效果
一键式文本纠错工具,整合了BERT、MacBERT、ELECTRA、ERNIE等多种模型,让您立即享受纠错的便利和效果
一键式文本纠错工具,整合了BERT、MacBERT、ELECTRA、ERNIE等多种模型,让您立即享受纠错的便利和效果