论文解读系列| 04:【NER】FLAT模型详解

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
实时计算 Flink 版,1000CU*H 3个月
简介: FLAT也是一种将词汇信息融入character-based模型的解决方案。有2个创新点(1)将lattice结构转为由spans组成的平铺结构,每个span可以是字符或者词及其在原始lattice结构中的位置;(2)基于Transformer设计了一种巧妙position encoding来充分利用lattice结构信息,从而无损地引入词汇信息。

基本信息

FLAT(2020)
FLAT 出自 ACL 2020 FLAT: Chinese NER Using Flat-Lattice Transformer。

论文地址:https://arxiv.org/abs/2004.11795

论文代码:Flat Lattice

更多、更及时内容欢迎留意微信公众号小窗幽记机器学习

中文NER通常以字符为单位进行序列标注建模,即一般使用character-based模型。这主要是由于中文分词存在误差,会带来错误传导,所以一般character-based的中文NER模型通常要优于 基于word-based(经过分词)的序列标注建模方法。而在character-based模型中引入词汇信息可以显著提升中文NER效果已经得到多方验证。FLAT也是一种将词汇信息融入character-based模型的解决方案。此前通过 lattice 结构融入词汇信息的方式存在一些不足,比如Lattice LSTM存在以下缺点

  • 信息损失

    • 每个字符只取以它为结尾的词汇信息。如对于Figure 1中的示例,对于「药」,并无法获得inside的「人和药店」信息。而「人和药店」有助于区分示例中的地址实体重庆组织实体重庆人
    • 由于RNN特性,采取BiLSTM时其前向和后向的词汇信息不能共享。
    • Lattice LSTM并没有利用前一时刻的记忆向量,即不保留对词汇信息的持续记忆。
  • 计算性能低,不能batch并行化:究其原因主要是每个字符之间需要attend的word cell(看作节点)数目不一致;可以视为动态结构。不过,后续也有工作将Lattice LSTM进行batch化。

  • 可迁移性差:只适配于LSTM,不具备向其他网络迁移的特性。

为此,FALT提出以下2个创新点:

  • 将lattice结构转为由spans组成的平铺结构,每个span可以是字符或者词及其在原始lattice结构中的位置。
  • 基于Transformer设计了一种巧妙position encoding来充分利用lattice结构信息,从而无损地引入词汇信息

FLAT刚出炉之际,在MSRA-NER任务中,FLAT+BERT登顶榜首;而单独的FLAT(1层TransFormer)也超越了预训练模型ERNIE。

模型结构

由之前的分析可知,Lattice-LSTM采取的RNN结构难以捕捉长距离依赖,同时引入词汇信息是有损的,同时动态的Lattice结构也不支持GPU并行。

使用lattice引入词汇信息有2种:

  • 设计特定模型以兼容lattice输入,比如 lattice LSTM和 LR-CNN。比如lattice LSTM需要额外的word cell以编码潜在的word信息,在每个节点以注意力机制动态融入数量可变的节点信息,如Figure 1(b)所示。LR-CNN使用CNN的不同尺寸的Window来对潜在的词汇信息编码。但是,CNN和RNN都难以建模长程依赖关系,而这在NER中很重要。此外,像lattice LSTM这种动态结构难以GPU并行。
  • 将 lattice 转为图结构,再使用图神经网络将词汇信息进行encode,比如CGN和LGN。图结构虽然是通用结构,但是对于NER任务来说顺序结构至关重要,两者间的差距不容忽视。基于图结构的方法通常需要使用LSTM作为底层encoder来捕捉顺序性,这使得模型结构更为复杂。

为解决计算效率低下、引入词汇信息有损的这两个问题,FLAT基于Transformer结构进行了两大改进:

改进1:Flat-Lattice Transformer,无损引入词汇信息
改进2:相对位置编码,让Transformer适用NER任务

将Lattice结构平铺

文章将Lattice结构平铺为一序列的span,这些span有3种类型:token、head和tail。一个token可以是字也可以词,如Figure 1(c)所示。head和tail分别表示token在原始句子中的起始和终止索引位置。对于字符token,head和tail值相同。通过这种方式可以记录token在lattice结构中的位置,且易于重建回原始的lattice结构,因此这种平铺的结构能够完全保留原始lattice结构信息。正因为如此,FLAT可以直接建模字符与所有匹配的词汇信息间的交互,例如,字符[药]可以匹配词汇[人和药店][药店]

image.png

span的相对位置编码

从Figure 1(c)可以看出FLAT使用了两个位置编码(head position encoding 和 tail position encoding), 那么是否可以采用绝对位置编码呢?同样来自邱锡鹏老师组的论文TENER: Adapting Transformer Encoder for Named Entity Recognition给出答案:原生Transformer中的绝对位置编码并不直接适用于NER任务

TENER论文发现:对于NER任务来说,位置和方向信息十分重要。如下图所示,在「Inc.」前的单词更可能的实体类型是「ORG」,在「in」后的单词更可能为时间或地点。而对于方向性的感知有助于单词识别其邻居是否构成一个连续的实体Span。可见,对于「距离」和「方向性」的感知对于Transformer应用于NER任务至关重要。

image.png

但是,原生Transformer的绝对位置编码本身缺乏方向性。向量点积(inner dot)的交换性使得self-attention在方向性上有信息损失,因此文章使用相对位置编码。

为encoder不同span之间的交互,文章对span使用相对位置编码。2个span $x_i$和$x_j$之间3种关系:相交、包含、独立。这些关系取决于heads和tails值。文章中使用dense vector来对他们之间的关系进行建模。头部和尾部信息不仅可以表示两个token的关系,还能够表示一些更详细的信息,例如一个字符和一个单词之间的距离。
假定$head[i]$和$tail[i]$表示spand $x_i$的头部和尾部位置,spand $x_i$和spand $x_j$之间有4种距离:

$$ \begin{aligned} d_{i j}^{(h h)} &=h e a d[i]-h e a d[j], \\ d_{i j}^{(h t)} &=h e a d[i]-\operatorname{tail}[j] \\ d_{i j}^{(t h)} &=\operatorname{tail}[i]-h e a d[j] \\ d_{i j}^{(t t)} &=\operatorname{tail}[i]-\operatorname{tail}[j] \end{aligned} $$
其中 $d_{i j}^{(h h)}$ 表示head $x_i$ 和 tail $x_j$之间的距离,$d_{i j}^{(h t)}, d_{i j}^{(t h)}, d_{i j}^{(t t)}$同理。 这两个spand最终的相对位置编码是上述4个距离的简单非线性变换:

$$ R_{i j}=\operatorname{ReLU}\left(W_r\left(\mathbf{p}_{d_{i j}^{(h h)}} \oplus \mathbf{p}_{d_{i j}^{(t h)}} \oplus \mathbf{p}_{d_{i j}^{(h t)}} \oplus \mathbf{p}_{d_{i j}^{(t t)}}\right)\right), $$

其中 $W_r$ 是待学习的参数, $\oplus$表示拼接操作, $\mathbf{p}_d$与原生的Transformer相同:

$$ \begin{array}{r} \mathbf{p}_d^{(2 k)}=\sin \left(d / 10000^{2 k / d_{\text {model }}}\right) \\ \mathbf{p}_d^{(2 k+1)}=\cos \left(d / 10000^{2 k / d_{\text {model }}}\right) \end{array} $$
其中 $d$ 表示 $d_{i j}^{(h h)}, d_{i i}^{(h t)}, d_{i j}^{(t h)}$ 或 $d_{i j}^{(t t)}$,$k$表示位置编码各个维度的索引。再使用XLNet中的的自注意力机制使用span相对位置编码:

$$ \begin{aligned} \mathbf{A}_{i, j}^* &=\mathbf{W}_q^{\top} \mathbf{E}_{x_i}^{\top} \mathbf{E}_{x_j} \mathbf{W}_{k, E}+\mathbf{W}_q^{\top} \mathbf{E}_{x_i}^{\top} \mathbf{R}_{i j} \mathbf{W}_{k, R} \\ &+\mathbf{u}^{\top} \mathbf{E}_{x_j} \mathbf{W}_{k, E}+\mathbf{v}^{\top} \mathbf{R}_{i j} \mathbf{W}_{k, R}, \end{aligned} $$

其中 $\mathbf{W}_q, \mathbf{W}_{k, R}, \mathbf{W}_{k, E} \in \mathbb{R}^{d_{\text {model }} \times d_{\text {head }}}$,$\mathbf{u}, \mathbf{v} \in \mathbb{R}^{d_{\text {head }}}$是待学习的参数。

image.png

相关文章
|
Java 应用服务中间件 Maven
解决A child container failed during start报错问题
解决A child container failed during start报错问题
322 0
|
弹性计算 Kubernetes Cloud Native
K8s 网关选型初判:Nginx 还是 Envoy?
本文将从性能和成本、可靠性、安全性 3 方面,对两大开源实现进行比对,希望对正在做 K8s 网关选型的企业有所借鉴。
K8s 网关选型初判:Nginx 还是 Envoy?
|
8月前
|
SQL 人工智能 关系型数据库
【PG锦囊】阿里云 RDS PostgreSQL 版插件—AI 插件(rds_ai)
本文介绍了AI 插件(rds_ai)的核心优势、适用场景等,帮助您更好地了解 rds_ai 插件。想了解更多 RDS 插件信息和讨论交流,欢迎加入 RDS PG 插件用户专项服务群(103525002795)
|
11月前
|
人工智能
写歌词的技巧和方法:构建独特歌词结构的策略,妙笔生词AI智能写歌词软件
歌词创作如同搭建艺术殿堂,独特的歌词结构是其基石。掌握构建策略,让你的歌词脱颖而出。开头营造神秘氛围或出人意料的情感,主体部分采用倒叙、插叙或融合矛盾情感,结尾带来情感反转或深邃思考。《妙笔生词智能写歌词软件》提供 AI 智能写词、押韵优化等功能,助你轻松获取灵感,打造独特歌词结构。
|
11月前
|
Dubbo IDE Java
dubbo学习二:下载Dubbo-Admin管理控制台,并分析在2.6.1及2.6.1以后版本的变化
这篇文章是关于如何下载和部署Dubbo管理控制台(dubbo-admin)的教程,并分析了2.6.1版本及以后版本的变化。
792 0
dubbo学习二:下载Dubbo-Admin管理控制台,并分析在2.6.1及2.6.1以后版本的变化
|
12月前
|
人工智能 分布式计算 大数据
超级计算与大数据:推动科学研究的发展
【9月更文挑战第30天】在信息时代,超级计算和大数据技术正成为推动科学研究的关键力量。超级计算凭借强大的计算能力,在尖端科研、国防军工等领域发挥重要作用;大数据技术则提供高效的数据处理工具,促进跨学科合作与创新。两者融合不仅提升了数据处理效率,还推动了人工智能、生物科学等领域的快速发展。未来,随着技术进步和跨学科合作的加深,超级计算与大数据将在科学研究中扮演更加重要的角色。
|
编译器 Linux API
BCC和libbpf的转换
BCC和libbpf的转换
210 3
|
负载均衡 NoSQL 应用服务中间件
搭建高可用及负载均衡的Redis
【7月更文挑战第10天】
560 1
|
存储 JSON Ubuntu
如何使用 Lua 脚本进行更复杂的网络请求,比如 POST 请求?
如何使用 Lua 脚本进行更复杂的网络请求,比如 POST 请求?
|
PyTorch 算法框架/工具 Python
针对pytorch中的CRF不存在属性
为了更加便捷地使用CRF模块,有大佬真们对CRF封装起来,方便大家使用。关于CRF的左右,本博客不具体介绍,有兴趣的朋友可以百度查找。
744 0