AAAI 2020 | MaskGEC:通过动态掩蔽改善语法纠错

本文涉及的产品
文本翻译,文本翻译 100万字符
图片翻译,图片翻译 100张
语种识别,语种识别 100万字符
简介: AAAI 2020 | MaskGEC:通过动态掩蔽改善语法纠错

今天给大家介绍北京大学计算语言学教育部重点实验室的Zewei Zhao和Houfeng Wang在AAAI 2020发表的文章“MaskGEC: Improving Neural Grammatical Error Correction via Dynamic Masking”。作者在文章中提出了一种通过动态掩蔽改进基于神经机器翻译的语法纠错模型的方法,该方法解决了模型对“错误-正确”句子对的语料库的需求。


image.png

image.png

1


研究背景


语法纠错(GEC)是一种自然语言处理(NLP)应用,其目的是将语法错误的句子转换为正确的句子。神经机器翻译(NMT)方法已被广泛应用于这种类似翻译的任务,然而,这种方法需要一个相当大的“错误—正确“句子对语料库,这个条件难以满足,尤其是在中文语法纠错领域。针对这一问题,作者提出了一种简单而有效的使用的动态掩蔽改进基于NMT的GEC模型的方法。该方法通过在训练过程中动态地向原始源句子添加随机掩码,生成更多不同的句子对实例,以增强模型的泛化能力并提高语法纠错模型的有效性。作者通过实验证明,MaskGEC模型提高了神经GEC模型的性能,此外,在没有任何额外的知识的情况下,文章中的中文GEC单一模型的性能优于目前最先进的集成系统。


2


模型


2.1神经GEC模型


MaskGEC模型采用了Transformer作为NMT框架,Transformer是一种新型的编码器-解码器框架,该框架完全基于注意力机制,具备强大的单词序列建模能力,并在机器翻译任务中取得了最佳性能。给定源序列

image.png

和与之对应的正确序列

image.png

语法纠错模型需要计算以下条件概率:

image.png

(1)

其中

image.png

表示模型参数,该模型采用极大似然估计(MLE)进行训练。

2.2动态掩蔽

对于神经网络模型,训练语料库的大小通常是模型性能的关键因素之一。为了方便、有效地获得更多的训练样本,在训练过程中按一定的概率将噪声动态地添加到源序列X中,得到噪声文本

image.png

其中

image.png

的计算方法如公式(2)所示:

image.png

(2)

其中表示单词替换函数,表示区间[0.0,1.0]上均匀分布的随机数,表示替换概率的阈值。语法纠错中的动态掩蔽方法的训练过程如图1所示。

image.png

图1  动态掩蔽方法在中文语法纠错中的训练过程

动态掩蔽算法如表1所示:

表1 动态掩蔽算法

image.png

2.3 噪声方案


(1)填充符替换:源句子中的每个单词都有一定的概率被选择并替换为填充符号“”。


(2)随机替换:按一定概率从源句子中随机抽取一些单词,然后使用词汇表中的随机单词来替换它们。


(3)字频替换:计数训练语料库中目标句子中每个单词的出现情况得到单词频率,然后计算单词表的概率分布, 在训练过程中,GEC模型根据单词频率对单词进行替换采样。


(4) 同音词替换:根据目标句子中的单词的拼音进行分类,并根据拼音类别计算单词频率,得到各拼音类型单词的概率分布。在训练过程中,选择替换的单词之后,查找这些单词的拼音并根据相应的单词频率分布选择同音词进行替换。


(5)混合替换:对于每个训练实例,中文GEC模型随机选择单个噪声方案或空方案,并将其应用于训练过程,这样可以集成了所有单一的噪声方案,并获得更多样化的噪声句子对。


3


实验


3.1 实验数据及基线模型


为了验证该方法在中文语法纠错任务中的有效性,作者在NLPCC 2018 Task 2的数据集上进行了一组实验。数据集的统计数据如表2所示:


表2 数据集统计

image.png

文章中使用MaxMatch()评分器来评估GEC模型,并与目前存在的中文语法纠错系统进行比较,其中包含(1)YouDao;(2)AliGM;(3)BLCU and BLCU (ensemble)。为了验证动态掩蔽方法在中文神经语法纠错模型中的有效性,作者实现了一个基于字符Transformer的中文语法纠错模型并将其作为基线模型。


3.2 实验结果


表3展示了MaskGEC模型和其它系统在中文GEC基准数据集上使用MaxMatch评分器的评估结果。NLPCC 2018 Task 2中的前三个模型都是集成模型,作者提出的单一模型的表现优于这些集成模型。文章中提出的方法与这些集成完全正交,这意味着作者提出的GEC模型相较于这些方法能够获得更好的结果。


表3 语法纠错系统在NLPCC-2018数据集上的性能

image.png

4


总结


在文章中,作者提出动态掩蔽方法可以促进中文语法纠错的神经机器翻译方法。为了解决GEC的神经方法的训练语料库小的问题,作者提出了五种噪声替换方案,这些方案能够生成多种多样的“错误—正确”句子对,从而构建足够大的语料库以提升常规seq2seq GEC模型性能。作者基于NMT的模型的动态掩盖方法使文章中的中文GEC系统能够超越NLPCC-2018基准数据集上的所有已发布结果,并建立了最新的技术水平。



目录
相关文章
|
8月前
|
自然语言处理 异构计算
ICLR 2024 Poster:精确且高效的大语言模型低比特量化方法 QLLM
【2月更文挑战第24天】ICLR 2024 Poster:精确且高效的大语言模型低比特量化方法 QLLM
182 3
ICLR 2024 Poster:精确且高效的大语言模型低比特量化方法 QLLM
|
2月前
|
人工智能 自然语言处理 测试技术
苹果一篇论文得罪大模型圈?Transformer不会推理,只是高级模式匹配器!所有LLM都判死刑
苹果公司发布论文《GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models》,质疑大型语言模型(LLM)在数学推理方面的能力。尽管LLM在GSM8K等测试中表现良好,但在新基准测试GSM-Symbolic中,其准确率随数值变化而显著下降,表明LLM可能依赖于记忆和模式匹配而非真正的数学理解。这一发现引发了AI领域的广泛讨论。
43 5
|
5月前
|
人工智能
ECCV 2024:让GPT-4图像理解更易出错,全新策略增强VLP模型对抗迁移性
【8月更文挑战第13天】在AI领域,视觉语言预训练(VLP)模型展现出了强大的图像与文本理解能力,但也易受多模态对抗样本攻击。为此,研究者提出了Cross-Clean-Adversarial Regional Diversification (CCAR-Div)策略,通过增强对抗样本多样性以提升VLP模型的对抗迁移性。此策略在对抗轨迹交集区域采样,增加样本多样性,并利用模态交互作用。经Flickr30K和MSCOCO数据集验证,CCAR-Div能有效提高跨模型与跨任务场景下的对抗迁移性,如使用ALBEF生成的对抗样本攻击TCL时,成功率高达95.58%。
151 60
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
ICML 2024 Spotlight:在解码中重新对齐,让语言模型更少幻觉、更符合人类偏好
【7月更文挑战第13天】ICML 2024 Spotlight: Decoding-time Realignment改善语言模型,减少幻觉,增强人类偏好一致性。研究提出在解码阶段动态调整模型对齐,通过控制参数实现对齐与性能平衡,提高泛化能力。尽管面临参数选择及计算资源挑战,该技术为优化AI文本生成对齐提供了新途径。[论文链接](https://openreview.net/forum?id=n8g6WMxt09&noteId=E3VVDPVOPZ)**
85 9
|
6月前
|
人工智能 程序员
ChatGPT无法取代人类程序员! IEEE 35页论文测出困难编码正确率仅为0.66%
【7月更文挑战第20天】IEEE 35页论文揭示ChatGPT在复杂编码任务上的正确率仅0.66%,表明大型语言模型虽能生成语法正确代码,但在逻辑和可读性上不及人类程序员。研究强调AI在深度领域知识与推理上的局限性,提示AI辅助而非替代的角色。[链接:https://ieeexplore.ieee.org/document/10507163]
54 2
|
5月前
|
机器学习/深度学习 vr&ar
Sora视频重建与创新路线问题之Perceiver AR模型模态无关的自回归生成如何处理
Sora视频重建与创新路线问题之Perceiver AR模型模态无关的自回归生成如何处理
|
机器学习/深度学习 编解码 自然语言处理
DAFormer | 使用Transformer进行语义分割无监督域自适应的开篇之作(一)
DAFormer | 使用Transformer进行语义分割无监督域自适应的开篇之作(一)
427 0
|
机器学习/深度学习 人工智能 算法
CVPR 2023 | 一键去除视频闪烁,该研究提出了一个通用框架
CVPR 2023 | 一键去除视频闪烁,该研究提出了一个通用框架
228 0
|
机器学习/深度学习 数据采集 Oracle
DAFormer | 使用Transformer进行语义分割无监督域自适应的开篇之作(二)
DAFormer | 使用Transformer进行语义分割无监督域自适应的开篇之作(二)
393 0
|
机器学习/深度学习 算法 数据可视化
ICLR 2023 Oral | 漂移感知动态神经网络加持,时间域泛化新框架远超领域泛化&适应方法
ICLR 2023 Oral | 漂移感知动态神经网络加持,时间域泛化新框架远超领域泛化&适应方法
113 0