业界总结 | BERT的花式玩法（一）

2022-04-26 772

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 业界总结 | BERT的花式玩法（一）

BERT在工业界落地已经很普遍了，主要在搜索、推荐和NLP中广泛应用，我将自己运用BERT的心得总结如下：

BERT在工业界的落地：新数据预训练、多任务、蒸馏/裁剪、双塔的在线应用；

如何蒸馏模型；

在BERT基础上有哪些有效的改进点；

如何融入知识图谱；

相关性的框架：考虑到业务效果，必要的前置/后置规则可能有效；两阶段分别解决不相关、以及区分强相关/一般相关；

多业务场景；

下面就带大家一起看看阿里、美团和百度等公司是如何将BERT应用在业务中并提升业务指标的。

业界实践

一、百度-ERNIE（艾尼）

论文：ERNIE 2.0: A Continual Pre-Training Framework for Language Understanding

github：http://github.com/PaddlePaddle/ERNIE

改进点：引入知识，在BERT基础上MASK 词和实体的方法，学习这个词或者实体在句子里面 Global 的信号。

BERT 提出后，我们发现一个问题，它学习的还是基础语言单元的 Language Model，并没有充分利用先验语言知识，这个问题在中文很明显，它的策略是 MASK 字，没有 MASK 知识或者是短语。在用 Transformer 预测每个字的时候，很容易根据词包含字的搭配信息预测出来。比如预测“雪”字，实际上不需要用 Global 的信息去预测，可以通过“冰”字预测。基于这个假设，我们做了一个简单的改进，把它做成一个 MASK 词和实体的方法，学习这个词或者实体在句子里面 Global 的信号。

基于上述思想我们发布了基于知识增强的语义表示ERNIE(1.0)。

英文上验证了推广性，实验表明 ERNIE（1.0）在 GLUE 和 SQuAd1.1 上提升也是非常明显的。为了验证假设，我们做了一些定性的分析，找了完形填空的数据集，并通过 ERNIE 和 BERT 去预测，效果如上图。

我们对比了 ERNIE、BERT、CoVe、GPT、ELMo 模型，结果如上图所示。ELMo 是早期做上下文相关表示模型的工作，但它没有用 Transformer，用的是 LSTM，通过单向语言模型学习。百度的 ERNIE 与 BERT、GPT 一样，都是做网络上的 Transformer，但是 ERNIE 在建模 Task 的时候做了一些改进，取得了很不错的效果。

在应用上，ERNIE 在百度发布的面向工业应用的中文 NLP 开源工具集进行了验证，包括 ERNIE 与 BERT 在词法分析、情感分类这些百度内部的任务上做了对比分析。同时也有一些产品已经落地，在广告相关性的计算、推荐广告的触发、新闻推荐上都有实际应用。

后来，百度艾尼 ( ERNIE ) 再升级，发布了持续学习语义理解框架 ERNIE 2.0，同时借助飞桨 ( PaddlePaddle ) 多机多卡高效训练优势发布了基于此框架的 ERNIE 2.0 预训练模型。该模型在共计 16 个中英文任务上超越了 BERT 和 XLNet，取得了 SOTA 效果。

二、阿里大文娱—PolyEncoders

论文：Poly-encoders: Transformer Architectures and Pre-training Strategies for Fast and Accurate Multi-sentence Scoring

非对称双塔：

Doc（离线）：为了降低双塔模型的指标衰减，对于Doc侧，它其实保存的并不是一个Embedding，它是M组的Embedding，M组可以理解为从M个侧面刻画Doc的特征，这样也是为了最大限度的去保留Doc侧的一些丰富的信息；

Query（在线）：三层BERT，但是也会导致指标衰减；

多阶段蒸馏模型

融合知识的深度语义匹配

对于query，通过对KG进行一个查询找到它的子图，然后把它子图的结构化信息编码成BERT通用的序列化的输入，然后再在KG层和文本层之间做一些attention的监督操作

业界总结 | BERT的花式玩法（一）

业界实践

一、百度-ERNIE（艾尼）