AAAI 2020 | MaskGEC:通过动态掩蔽改善语法纠错

简介: AAAI 2020 | MaskGEC:通过动态掩蔽改善语法纠错

今天给大家介绍北京大学计算语言学教育部重点实验室的Zewei Zhao和Houfeng Wang在AAAI 2020发表的文章“MaskGEC: Improving Neural Grammatical Error Correction via Dynamic Masking”。作者在文章中提出了一种通过动态掩蔽改进基于神经机器翻译的语法纠错模型的方法,该方法解决了模型对“错误-正确”句子对的语料库的需求。


image.png

image.png

1


研究背景


语法纠错(GEC)是一种自然语言处理(NLP)应用,其目的是将语法错误的句子转换为正确的句子。神经机器翻译(NMT)方法已被广泛应用于这种类似翻译的任务,然而,这种方法需要一个相当大的“错误—正确“句子对语料库,这个条件难以满足,尤其是在中文语法纠错领域。针对这一问题,作者提出了一种简单而有效的使用的动态掩蔽改进基于NMT的GEC模型的方法。该方法通过在训练过程中动态地向原始源句子添加随机掩码,生成更多不同的句子对实例,以增强模型的泛化能力并提高语法纠错模型的有效性。作者通过实验证明,MaskGEC模型提高了神经GEC模型的性能,此外,在没有任何额外的知识的情况下,文章中的中文GEC单一模型的性能优于目前最先进的集成系统。


2


模型


2.1神经GEC模型


MaskGEC模型采用了Transformer作为NMT框架,Transformer是一种新型的编码器-解码器框架,该框架完全基于注意力机制,具备强大的单词序列建模能力,并在机器翻译任务中取得了最佳性能。给定源序列

image.png

和与之对应的正确序列

image.png

语法纠错模型需要计算以下条件概率:

image.png

(1)

其中

image.png

表示模型参数,该模型采用极大似然估计(MLE)进行训练。

2.2动态掩蔽

对于神经网络模型,训练语料库的大小通常是模型性能的关键因素之一。为了方便、有效地获得更多的训练样本,在训练过程中按一定的概率将噪声动态地添加到源序列X中,得到噪声文本

image.png

其中

image.png

的计算方法如公式(2)所示:

image.png

(2)

其中表示单词替换函数,表示区间[0.0,1.0]上均匀分布的随机数,表示替换概率的阈值。语法纠错中的动态掩蔽方法的训练过程如图1所示。

image.png

图1  动态掩蔽方法在中文语法纠错中的训练过程

动态掩蔽算法如表1所示:

表1 动态掩蔽算法

image.png

2.3 噪声方案


(1)填充符替换:源句子中的每个单词都有一定的概率被选择并替换为填充符号“”。


(2)随机替换:按一定概率从源句子中随机抽取一些单词,然后使用词汇表中的随机单词来替换它们。


(3)字频替换:计数训练语料库中目标句子中每个单词的出现情况得到单词频率,然后计算单词表的概率分布, 在训练过程中,GEC模型根据单词频率对单词进行替换采样。


(4) 同音词替换:根据目标句子中的单词的拼音进行分类,并根据拼音类别计算单词频率,得到各拼音类型单词的概率分布。在训练过程中,选择替换的单词之后,查找这些单词的拼音并根据相应的单词频率分布选择同音词进行替换。


(5)混合替换:对于每个训练实例,中文GEC模型随机选择单个噪声方案或空方案,并将其应用于训练过程,这样可以集成了所有单一的噪声方案,并获得更多样化的噪声句子对。


3


实验


3.1 实验数据及基线模型


为了验证该方法在中文语法纠错任务中的有效性,作者在NLPCC 2018 Task 2的数据集上进行了一组实验。数据集的统计数据如表2所示:


表2 数据集统计

image.png

文章中使用MaxMatch()评分器来评估GEC模型,并与目前存在的中文语法纠错系统进行比较,其中包含(1)YouDao;(2)AliGM;(3)BLCU and BLCU (ensemble)。为了验证动态掩蔽方法在中文神经语法纠错模型中的有效性,作者实现了一个基于字符Transformer的中文语法纠错模型并将其作为基线模型。


3.2 实验结果


表3展示了MaskGEC模型和其它系统在中文GEC基准数据集上使用MaxMatch评分器的评估结果。NLPCC 2018 Task 2中的前三个模型都是集成模型,作者提出的单一模型的表现优于这些集成模型。文章中提出的方法与这些集成完全正交,这意味着作者提出的GEC模型相较于这些方法能够获得更好的结果。


表3 语法纠错系统在NLPCC-2018数据集上的性能

image.png

4


总结


在文章中,作者提出动态掩蔽方法可以促进中文语法纠错的神经机器翻译方法。为了解决GEC的神经方法的训练语料库小的问题,作者提出了五种噪声替换方案,这些方案能够生成多种多样的“错误—正确”句子对,从而构建足够大的语料库以提升常规seq2seq GEC模型性能。作者基于NMT的模型的动态掩盖方法使文章中的中文GEC系统能够超越NLPCC-2018基准数据集上的所有已发布结果,并建立了最新的技术水平。



目录
相关文章
|
数据挖掘
InsTag:大语言模型监督微调数据标签标注工具
魔搭社区发布了一个名为“InsTagger”的工具,用于分析LLM(大语言模型)中符合人类偏好的监督微调(SFT)数据。InsTagger 是基于 InsTag 方法训练的本地指令标签标注器,用于为符合人类偏好的监督微调数据集中的指令标注描述其意图和语义的标签,从而指导指令的分流或监督微调数据集的分析。
|
2天前
|
人工智能 自然语言处理 JavaScript
2026年Windows+Ollama本地部署OpenClaw保姆级教程:本地AI Agent+阿里云上快速搭建
2026年OpenClaw凭借本地部署、私有化运行的特性,成为打造个人智能体的核心工具,而Ollama作为轻量级本地大模型管理工具,能让OpenClaw摆脱对云端大模型的依赖,实现**本地推理、数据不泄露、全流程私有化**的智能体验。本文基于Windows 11系统,从硬件环境准备、Ollama安装与模型定制、OpenClaw部署配置、技能扩展到常见问题排查,打造保姆级本地部署教程,同时补充阿里云OpenClaw(Clawdbot)快速部署步骤,兼顾本地私有化需求与云端7×24小时运行需求,文中所有代码命令均可直接复制执行,确保零基础用户也能快速搭建属于自己的本地智能体。
4432 20
|
9天前
|
存储 人工智能 负载均衡
阿里云OpenClaw多Agent实战宝典:从极速部署到AI团队搭建,一个人=一支高效军团
在AI自动化时代,单一Agent的“全能模式”早已无法满足复杂任务需求——记忆臃肿导致响应迟缓、上下文污染引发逻辑冲突、无关信息加载造成Token浪费,这些痛点让OpenClaw的潜力大打折扣。而多Agent架构的出现,彻底改变了这一现状:通过“单Gateway+多分身”模式,让一个Bot在不同场景下切换独立“大脑”,如同组建一支分工明确的AI团队,实现创意、写作、编码、数据分析等任务的高效协同。
3708 27
|
13天前
|
人工智能 自然语言处理 监控
OpenClaw skills重构量化交易逻辑:部署+AI全自动炒股指南(2026终极版)
2026年,AI Agent领域最震撼的突破来自OpenClaw(原Clawdbot)——这个能自主规划、执行任务的智能体,用50美元启动资金创造了48小时滚雪球至2980美元的奇迹,收益率高达5860%。其核心逻辑堪称教科书级:每10分钟扫描Polymarket近千个预测市场,借助Claude API深度推理,交叉验证NOAA天气数据、体育伤病报告、加密货币链上情绪等多维度信息,捕捉8%以上的定价偏差,再通过凯利准则将单仓位严格控制在总资金6%以内,实现低风险高频套利。
7289 65
|
3天前
|
人工智能 JSON JavaScript
手把手教你用 OpenClaw + 飞书,打造专属 AI 机器人
手把手教你用 OpenClaw(v2026.2.22-2)+ 飞书,10分钟零代码搭建专属AI机器人!内置飞书插件,无需额外安装;支持Claude等主流模型,命令行一键配置。告别复杂开发,像聊同事一样自然对话。
1648 5
手把手教你用 OpenClaw + 飞书,打造专属 AI 机器人
|
3天前
|
人工智能 运维 安全
OpenClaw极速部署:ZeroNews 远程管理OpenClaw Gateway Dashboard指南+常见错误解决
OpenClaw作为高性能AI智能体网关平台,其Gateway Dashboard是管理模型调用、渠道集成、技能插件的核心操作界面,但默认仅支持本地局域网访问。官方推荐的Tailscale、VPN等远程访问方案在国内网络环境中体验不佳,而ZeroNews凭借轻量化部署、专属域名映射、多重安全防护的特性,成为适配国内网络的最优远程管理解决方案。
1286 2
|
4天前
|
存储 人工智能 BI
2026年OpenClaw(Clawdbot)极简部署:接入小红书全自动运营,一个人=一支团队
2026年的小红书运营赛道,AI自动化工具已成为核心竞争力。OpenClaw(原Clawdbot)凭借“Skill插件化集成、全流程自动化、跨平台联动”的核心优势,彻底颠覆传统运营模式——从热点追踪、文案创作、封面设计到自动发布、账号互动,仅需一句自然语言指令,即可实现全链路闭环。而阿里云作为OpenClaw官方推荐的云端部署载体,2026年推出专属秒级部署方案,预装全套运行环境与小红书运营插件,让零基础用户也能10分钟完成部署,轻松拥有7×24小时在线的“专属运营团队”。
1370 6
|
8天前
|
人工智能 自然语言处理 安全
2026年OpenClaw Skills安装指南:Top20必装清单+阿里云上部署实操(附代码命令)
OpenClaw(原Clawdbot)的强大之处,不仅在于其开源免费的AI执行引擎核心,更在于其庞大的Skills生态——截至2026年2月,官方技能市场ClawHub已收录1700+各类技能插件,覆盖办公自动化、智能交互、生活服务等全场景。但对新手而言,面对海量技能往往无从下手,盲目安装不仅导致功能冗余,还可能引发权限冲突与安全风险。
2049 9
|
1月前
|
人工智能 自然语言处理 Shell
🦞 如何在 OpenClaw (Clawdbot/Moltbot) 配置阿里云百炼 API
本教程指导用户在开源AI助手Clawdbot中集成阿里云百炼API,涵盖安装Clawdbot、获取百炼API Key、配置环境变量与模型参数、验证调用等完整流程,支持Qwen3-max thinking (Qwen3-Max-2026-01-23)/Qwen - Plus等主流模型,助力本地化智能自动化。
46470 160
🦞 如何在 OpenClaw (Clawdbot/Moltbot) 配置阿里云百炼 API

热门文章

最新文章