NLP数据扩增方法

本文涉及的产品
NLP自然语言处理_高级版,每接口累计50万次
NLP自然语言处理_基础版,每接口每天50万次
NLP 自学习平台,3个模型定制额度 1个月
简介: NLP数据扩增方法

扩增方法:回译

将文本数据翻译成某种语言,然后再将其翻译回原始语言。回译可以生成带有不同单词的文本数据,同时保留文本数据的上下文。

一般情况下回译需要借助翻译API来完成,需要耗费一定的时间。

扩增方法:同义词替换

从句子中随机选择N个非停止词,随机选择的同义词替换这些单词。

替换前:This article will focus on summarizing data augmentation techniques in NLP.

替换后:This write-up will focus on summarizing data augmentation methods in NLP.

在进行同义词替换时,关键是计算得到同义词的方法:

  • word2vec距离
  • Bert Mask预测

扩增方法:同义词插入

在句子中随机找一个非停止词的同义词。把同义词插入句子中的任意位置。

替换前:This article will focus on summarizing data augmentation techniques in NLP.

替换后:This article will focus on write-up summarizing data augmentation techniques in NLP methods.

扩增方法:随机替换

从句子中随机选取两个单词,互换它们的位置。

替换前:This article will focus on summarizing data augmentation techniques in NLP.

替换后:This techniques will focus on summarizing data augmentation article in NLP.

扩增方法:随机删除

随机删除句子中的单词。

替换前:This article will focus on summarizing data augmentation techniques in NLP.

替换后:This article focus on summarizing data augmentation in NLP.

扩增方法:对抗训练

对抗样本是让能够模型误分类的样本,且对抗样本与原始样本区别不大。将模型生成的对抗样本加入训练过程,即为对抗训练

对抗训练思路:通过产生对抗样本的思路,如FGSM来计算出扰动,添加到到连续的Word Embedding上产生,然后将再进行一次正向传播和反向传播。

https://arxiv.org/abs/1605.07725

扩增库:EDA

EDA是Easy Data Augmentation的缩写,原始提出于论文EDA: Easy Data Augmentation techniques for boosting performance on text classification tasks.

EDA库实现了同义词替换、随机插入、随机交换和随机删除等操作,使用起来非常简单。

英文版:https://github.com/jasonwei20/eda_nlp

中文版:https://github.com/zhanlaoban/EDA_NLP_for_Chinese

扩增库:nlpaug

nlpaug是一个非常常用的数据扩增库,支持文本和音频数据。nlpaug实现了较多的同义词替换方法,底层支持pytorch和tf。

https://github.com/makcedward/nlpaug

使用案例:https://github.com/makcedward/nlpaug/blob/master/example/textual_augmenter.ipynb

目录
相关文章
|
7月前
|
自然语言处理 PyTorch 算法框架/工具
自然语言生成任务中的5种采样方法介绍和Pytorch代码实现
在自然语言生成任务(NLG)中,采样方法是指从生成模型中获取文本输出的一种技术。本文将介绍常用的5中方法并用Pytorch进行实现。
281 0
|
机器学习/深度学习 人工智能 自然语言处理
NLP文本生成全解析:从传统方法到预训练完整介绍
NLP文本生成全解析:从传统方法到预训练完整介绍
226 0
|
存储 自然语言处理 数据可视化
自然语言入门:NLP数据读取与数据分析
本章主要内容为数据读取和数据分析,具体使用`Pandas`库完成数据读取操作,并对赛题数据进行分析构成。
|
7月前
|
机器学习/深度学习 自然语言处理 数据可视化
数据代码分享|PYTHON用NLP自然语言处理LSTM神经网络TWITTER推特灾难文本数据、词云可视化
数据代码分享|PYTHON用NLP自然语言处理LSTM神经网络TWITTER推特灾难文本数据、词云可视化
|
2月前
|
自然语言处理 算法 数据挖掘
探讨如何利用Python中的NLP工具,从被动收集到主动分析文本数据的过程
【10月更文挑战第11天】本文介绍了自然语言处理(NLP)在文本分析中的应用,从被动收集到主动分析的过程。通过Python代码示例,详细展示了文本预处理、特征提取、情感分析和主题建模等关键技术,帮助读者理解如何有效利用NLP工具进行文本数据分析。
54 2
|
2月前
|
自然语言处理
【NLP自然语言处理】文本特征处理与数据增强
【NLP自然语言处理】文本特征处理与数据增强
|
2月前
|
机器学习/深度学习 自然语言处理 数据可视化
【NLP自然语言处理】文本张量表示方法
【NLP自然语言处理】文本张量表示方法
|
2月前
|
人工智能 自然语言处理 搜索推荐
【NLP自然语言处理】文本处理的基本方法
【NLP自然语言处理】文本处理的基本方法
|
4月前
|
机器学习/深度学习 自然语言处理 数据处理
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
自然语言处理(NLP)是人工智能和语言学的一个交叉领域,它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。
自然语言处理(NLP)是人工智能和语言学的一个交叉领域,它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。