Kaggle数据增强攻略来了！不氪金实现50种语言互译-阿里云开发者社区

Kaggle数据增强攻略来了！不氪金实现50种语言互译

2022-05-24 351

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Kaggle数据增强攻略来了！不氪金实现50种语言互译

俗话说，巧妇难为无米之炊。作为一名NLP算法工程师，我对这句话实在是感同身受。在平时的工作或比赛中，数据量匮乏是极其常见的问题，有时候甚至压根就没数据！

面对这些情况，首先想到的方法可能是通过搜索引擎查找开源数据集。然鹅无论是工作还是比赛中，我们面对的基本上是细分领域的场景，公开数据很难满足需求。而且不同公司的内部需求场景天差地别：比如A公司的需求是对用户的个人简介做人物画像以精准推送相关新闻，B公司的需求可能是根据用户评论做恶意评价判定。这些场景下，公开的同类型数据可能帮助很有限，倒是可以考虑做个迁移学习。同时中文领域公开数据集不足，想迁移估计都挺困难。假如我们有少量数据，或正好能找到对应的英文或者其他外语语料，如何快速获得大批数据呢？最简单的一种方法，翻译！

那如果没有翻译的基础，不能构建相应的翻译模型咋办？用百度或者谷歌等现成的翻译API接口呀！如果数据量很大，又不想氪金怎么办？额...用免费的谷歌翻译接口吧！这类接口一般会有访问频率限制，同时长时间访问会被系统限制🚫。咱们学生党做个比赛，面对几万或者几十万篇wiki文档的翻译，那真的是挠破头皮了！有没有什么免费好用的接口呀？没有！免费好用确实不存在。但是，我们可以利用现有工具“创造”一个新的翻译接口出来！

离线回译数据增强

下面，为大家介绍一下最近我在Kaggle竞赛中使用的增强方法：离线回译数据增强。

“离线回译数据增强”使用Seq2Seq预训练模型翻译来进行数据增强，可以自己构建翻译模块，不用访问任何在线API，即能翻译海量数据；适用场景广，尤其是某些比赛有不能联网的限制。听到“Seq2Seq+翻译+构建”，是不是就头皮发麻了？不着急，整个流程我已经帮你构建好了，只需要调用它就行，而且你还不需要有自己的GPU！

直接放链接了：

https://www.kaggle.com/vanle73/back-translation-offline-for-data-augmentation

如果你还不知道怎么用Kaggle平台，可以参考这篇文章：实验室一块GPU都没有怎么做深度学习？

白嫖的显卡，才是真的香！

下面简单介绍下食用方法，整个离线翻译的notebook分为3部分：预训练模型下载、翻译接口构建、示例。

预训练模型下载

这里使用的是Meta发布的mbart-large-50-many-to-many-mmt预训练模型，它是mBART-large-50针对多语种互译进行微调得到的翻译模型。

该模型能够在50种语言之间进行互译，实现49*50=2450个语种对的翻译。原来的回译可能比较拘束：中文->英文->中文现在，回译流程可以这样玩：中文->泰米尔语->印尼语->西班牙->中文妈妈再也不用担心我不懂“泰米尔语”了！翻译接口构建为了能够加速翻译，同时支持长文本输入(输入文本tokenized之后的长度大于512)，我设计了一个接口：

def trans_module(text, source_language, target_language, piece_len=256, max_batch =8):
    '''
    piece_len: max length of input
    max_batch: num sample of translation per time
    '''
    # 完整代码请参考：https://www.kaggle.com/vanle73/back-translation-offline-for-data-augmentation

通过设定piece_len(输入长文本拆分后每个片段的长度，应小于512)和max_batch(每次并行翻译的样本量，针对长文本)，你可以根据自己的GPU显存大小和样本长度得到最优的翻译效果。最后返回的内容是整个长文本的翻译结果。

参考示例

实际调用的例子就非常简单啦，直接调用trans_module即可。例如现在有一个英文句子，

Looks like be have an abuser , can you please look into this? thanks.能够看到“英翻中”和“中翻英”的结果还不错：

微信图片_20220524150528.png

更多语种的调试，留给大家亲自测试啦！

通过本文介绍的回译增强方法，结合简单的数据清洗规则，可以帮助你的数据规模实现double翻倍！

同时，在回译流程中引入多语种链路，相比传统的单语种翻译在文本表达上也会有更好的多样性。

Kaggle数据增强攻略来了！不氪金实现50种语言互译

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

Kaggle数据增强攻略来了！不氪金实现50种语言互译

热门文章

最新文章

相关课程

相关电子书

相关实验场景