错字修改 | 布署1个中文文文本拼蟹纠错模型

简介: 错字修改 | 布署1个中文文文本拼蟹纠错模型

image.png

内容一览:中文文本错误的种类之一为拼写错误,本篇文章为利用 BART 预训练方法实现中文文本纠错功能的模型部署教程。关键词:BART 中文拼写纠错 NLP本文首发自微信公众号:HyperAI超神经

中文文本错误3大障碍:拼写、语法、语义

中文文本纠错是当前自然语言处理领域的一个重要分支,旨在针对中文文本错误等进行检测与纠正。常见的中文文本错误包括拼写错误、语法错误以及语义错误。

1. 拼写错误:

指由于输入法、语音转文字软件等原因导致的用字或用词错误,主要表现为错误使用了同音字、形近字、混消音等,如「天气晴郎--天气晴朗」「时侯--时候」。

image.png

2. 语法错误:

指由于输入法、手写疏忽、OCR 识别乱序等导致的字词缺失、冗余、乱序或搭配不当等,如「虚心使使人进步--虚心使人进步」。

3. 语义错误:

由于对某些知识不了解,或语言组织能力欠缺导致的知识及逻辑错误,如「一年有 3 个季度--一年有 4 个季度」。

本文中,我们将以最常见的拼写错误为例,演示如何借助 BART 模型,进行中文文本纠错模型部署。

直接运行教程请访问:

https://openbayes.com/console/open-tutorials/containers/YvkMjHySdef

BART:「采众长」的 SOTA 模型

BART 全称 Bidirectional and Auto-Regressive Transformers,是一个为预训练 seq2seq 模型而设计的去噪自编码器, 适用于自然语言生成、翻译及理解任务,由 Meta(原 Facebook)在 2019 年提出。

论文详见:

https://arxiv.org/pdf/1910.13...

BART 模型吸纳借鉴了 BERT 和 GPT 的优点,使用标准的 Transformer 结构作为基础:

  • 解码器模块参考 GPT: 将 ReLU 激活函数替换为 GeLU 激活函数
  • 编码器模块区别于 BERT: 舍弃了前馈神经网络模块,精简了模型参数
  • 编解码器衔接部分参考了 Transformer: 解码器的每一层都要对编码器最后一层的输出信息进行交叉注意力计算(也就是编解码注意力机制)

image.png

本教程中,我们借助 nlp_bart_text-error-correction_chinese 模型进行模型部署。

更多信息可访问:

https://modelscope.cn/models/damo/nlp_bart_text-error-correction_chinese/summary

教程详解:创建一个在线文本纠错Demo

环境准备

在 jupyter 终端中执行以下命令安装依赖:

pip install "modelscope[nlp]" -f https://modelscope.oss-cn-beijing.aliyuncs.com/releases/repo.html
pip install fairseq

模型下载

在终端中执行以下命令下载模型:

git clone http://www.modelscope.cn/damo/nlp_bart_text-error-correction_chinese.git

模型下载需要较长时间,此容器中已有下载好的模型,可直接使用,位于 nlp_bart_text-error-correction_chinese 目录下。

快速使用

image.png

模型部署

Serving 服务编写

编写predictor.py文件:

  • 导入依赖库:除了业务中用到的库之外,需要额外依赖 openbayes-serving。
import openbayes_serving as serv
from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks
  • Predictor 类:无需继承其他类,至少提供 init 和 predict 两个接口。
  • __init__ 中指定模型路径,加载模型
  • predict 中进行推理,返回结果
class Predictor:
  def __init__(self):
      self.model_path = './nlp_bart_text-error-correction_chinese'
      self.corrector = pipeline(Tasks.text_error_correction, model=self.model_path)
def predict(self, json):
  text = json["input"].lower()
  result = self.corrector(text)
  return result

运行:启动服务

if __name__ == '__main__':
    serv.run(Predictor)

测试

在终端中执行 python predictor.py,成功开启服务后,在此 Notebook 中执行下列代码进行测试。

注意:在容器中进行测试时,flask 版本大于 2.1 可能出现重复注册报错,降低版本即可运行。

import requests
text = {"input": "这洋的话,下一年的福气来到自己身上。"}
result = requests.post('http://localhost:8080', json=text)
result.json()
{'output': '这样的话,下一年的福气就会来到自己身上。'}

除了通过本地访问地址 http://localhost:8080还可以通过终端中提示的外部可访问的 URL 进行测试。

image.png

注意:对于不同的 OpenBayes 算力容器,外部可访问的 URL 各不相同,直接使用本教程中的链接是无效的,需用终端中提示的链接进行替换

result = requests.post('https://openbayes.com/jobs-auxiliary/open-tutorials/t23g93jjm95d', json=text)
result.json()

部署

测试成功后,停止此算力容器,等待同步数据完成。

在「算力容器--模型部署」中点击「创建新部署」,选择与开发时相同的镜像,绑定此算力容器,点击「部署」,即可进行在线测试。

image.png

更多模型部署相关信息可参考:

https://openbayes.com/docs/serving/

至此,一个支持在线测试的中文文本纠错模型就训练+部署完成啦!

查看并运行完整教程,访问以下链接:

https://openbayes.com/console/open-tutorials/containers/YvkMjHySdef

快来试试你的中文纠错模型吧!

—— 完 ——

相关文章
|
自然语言处理 Java 大数据
阿里云自然语言处理--文本纠错(中文)Java 调用示例
自然语言处理(Natural Language Processing,简称NLP),是为各类企业及开发者提供的用于文本分析及挖掘的核心工具,旨在帮助用户高效的处理文本,已经广泛应用在电商、文娱、司法、公安、金融、医疗、电力等行业客户的多项业务中,取得了良好的效果。文本纠错产品是基于海量大数据研发,为有文本纠错需求的产品提供服务。能够准确识别输入文本中出现的拼写错别字及其段落位置信息,并针对性给出正确的建议文本内容。本文将使用Java CommonSDK演示文本纠错(中文)服务的快速调用以供参考。
2008 0
阿里云自然语言处理--文本纠错(中文)Java 调用示例
|
4月前
|
人工智能 SEO
AI时代企业获客新引擎:Geo专家于磊老师深度解析人性化Geo优化如何助力企业提效
在AI重塑信息获取的今天,Geo专家于磊提出“人性化Geo”理念,倡导以真实经验与专业内容赢得AI与用户双重信任。通过“四轮驱动”方法论——人性化创作、结构化表达、关键词优化、精准引用,助力企业实现获客提效,构建AI时代的数字护城河。
383 4
|
6月前
|
人工智能 负载均衡 API
Vercel 发布 AI Gateway 神器!可一键访问数百个模型,助力零门槛开发 AI 应用
大家好,我是Immerse,独立开发者、AGI实践者。分享编程、AI干货、开源项目与个人思考。关注公众号“沉浸式趣谈”,获取独家内容。Vercel新推出的AI Gateway,统一多模型API,支持自动切换、负载均衡与零加价调用,让AI开发更高效稳定。一行代码切换模型,告别接口烦恼!
780 1
Vercel 发布 AI Gateway 神器!可一键访问数百个模型,助力零门槛开发 AI 应用
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
大模型
大模型正重塑数字世界,以千亿级参数和深度学习技术驱动AI革命。它赋能内容生成、智能交互与知识服务,同时带来伦理、隐私与能耗挑战。未来需走向高效、可信、向善的可持续发展之路。
|
6月前
|
JSON 前端开发 API
汽车配件:使用VIN码查询API精准匹配车型配件,提升用户信任
VIN码是汽车的唯一“身份证”,通过API可精准解析车型信息,实现配件99.5%以上匹配度。本文详解VIN码API的工作流程、技术实现与信任提升价值,助力汽配销售从经验判断迈向数据驱动,降低退货率,提升用户体验与复购。
873 0
|
JSON 缓存 前端开发
HarmonyOS NEXT 5.0鸿蒙开发一套影院APP(附带源码)
本项目基于HarmonyOS NEXT 5.0开发了一款影院应用程序,主要实现了电影和影院信息的展示功能。应用包括首页、电影列表、影院列表等模块。首页包含轮播图与正在热映及即将上映的电影切换显示;电影列表模块通过API获取电影数据并以网格形式展示,用户可以查看电影详情;影院列表则允许用户选择城市后查看对应影院信息,并支持城市选择弹窗。此外,项目中还集成了Axios用于网络请求,并进行了二次封装以简化接口调用流程,同时添加了请求和响应拦截器来处理通用逻辑。整体代码结构清晰,使用了组件化开发方式,便于维护和扩展。 该简介概括了提供的内容,但请注意实际开发中还需考虑UI优化、性能提升等方面的工作。
496 11
|
自然语言处理 PyTorch 算法框架/工具
一键式文本纠错工具,整合了BERT、MacBERT、ELECTRA、ERNIE等多种模型,让您立即享受纠错的便利和效果
一键式文本纠错工具,整合了BERT、MacBERT、ELECTRA、ERNIE等多种模型,让您立即享受纠错的便利和效果
一键式文本纠错工具,整合了BERT、MacBERT、ELECTRA、ERNIE等多种模型,让您立即享受纠错的便利和效果
|
安全 Linux 网络安全
【工具使用】几款优秀的SSH连接客户端软件工具推荐FinalShell、Xshell、MobaXterm、OpenSSH、PUTTY、Terminus、mRemoteNG、Terminals等
【工具使用】几款优秀的SSH连接客户端软件工具推荐FinalShell、Xshell、MobaXterm、OpenSSH、PUTTY、Terminus、mRemoteNG、Terminals等
137020 0
|
Java
SpringBoot 内部方法调用,事务不起作用的原因及解决办法
在做业务开发时,遇到了一个事务不起作用的问题。大概流程是这样的,方法内部的定时任务调用了一个带事务的方法,失败后事务没有回滚。查阅资料后,问题得到解决,记录下来分享给大家。
826 4
|
API 语音技术 开发者
基于开源技术的数字人实时对话:形象可自定义,支持语音输入,对话首包延迟可低至3s
魔搭社区最近上线了基于开源技术的数字人实时对话demo,无需预训练即可使用自定义的数字人形象进行实时对话,支持语音输入和实时对话。

热门文章

最新文章