论文解读系列| 04:【NER】FLAT模型详解

本文涉及的产品
RDS DuckDB + QuickBI 企业套餐,8核32GB + QuickBI 专业版
简介: FLAT也是一种将词汇信息融入character-based模型的解决方案。有2个创新点(1)将lattice结构转为由spans组成的平铺结构,每个span可以是字符或者词及其在原始lattice结构中的位置;(2)基于Transformer设计了一种巧妙position encoding来充分利用lattice结构信息,从而无损地引入词汇信息。

基本信息

FLAT(2020)
FLAT 出自 ACL 2020 FLAT: Chinese NER Using Flat-Lattice Transformer。

论文地址:https://arxiv.org/abs/2004.11795

论文代码:Flat Lattice

更多、更及时内容欢迎留意微信公众号小窗幽记机器学习

中文NER通常以字符为单位进行序列标注建模,即一般使用character-based模型。这主要是由于中文分词存在误差,会带来错误传导,所以一般character-based的中文NER模型通常要优于 基于word-based(经过分词)的序列标注建模方法。而在character-based模型中引入词汇信息可以显著提升中文NER效果已经得到多方验证。FLAT也是一种将词汇信息融入character-based模型的解决方案。此前通过 lattice 结构融入词汇信息的方式存在一些不足,比如Lattice LSTM存在以下缺点

  • 信息损失

    • 每个字符只取以它为结尾的词汇信息。如对于Figure 1中的示例,对于「药」,并无法获得inside的「人和药店」信息。而「人和药店」有助于区分示例中的地址实体重庆组织实体重庆人
    • 由于RNN特性,采取BiLSTM时其前向和后向的词汇信息不能共享。
    • Lattice LSTM并没有利用前一时刻的记忆向量,即不保留对词汇信息的持续记忆。
  • 计算性能低,不能batch并行化:究其原因主要是每个字符之间需要attend的word cell(看作节点)数目不一致;可以视为动态结构。不过,后续也有工作将Lattice LSTM进行batch化。

  • 可迁移性差:只适配于LSTM,不具备向其他网络迁移的特性。

为此,FALT提出以下2个创新点:

  • 将lattice结构转为由spans组成的平铺结构,每个span可以是字符或者词及其在原始lattice结构中的位置。
  • 基于Transformer设计了一种巧妙position encoding来充分利用lattice结构信息,从而无损地引入词汇信息

FLAT刚出炉之际,在MSRA-NER任务中,FLAT+BERT登顶榜首;而单独的FLAT(1层TransFormer)也超越了预训练模型ERNIE。

模型结构

由之前的分析可知,Lattice-LSTM采取的RNN结构难以捕捉长距离依赖,同时引入词汇信息是有损的,同时动态的Lattice结构也不支持GPU并行。

使用lattice引入词汇信息有2种:

  • 设计特定模型以兼容lattice输入,比如 lattice LSTM和 LR-CNN。比如lattice LSTM需要额外的word cell以编码潜在的word信息,在每个节点以注意力机制动态融入数量可变的节点信息,如Figure 1(b)所示。LR-CNN使用CNN的不同尺寸的Window来对潜在的词汇信息编码。但是,CNN和RNN都难以建模长程依赖关系,而这在NER中很重要。此外,像lattice LSTM这种动态结构难以GPU并行。
  • 将 lattice 转为图结构,再使用图神经网络将词汇信息进行encode,比如CGN和LGN。图结构虽然是通用结构,但是对于NER任务来说顺序结构至关重要,两者间的差距不容忽视。基于图结构的方法通常需要使用LSTM作为底层encoder来捕捉顺序性,这使得模型结构更为复杂。

为解决计算效率低下、引入词汇信息有损的这两个问题,FLAT基于Transformer结构进行了两大改进:

改进1:Flat-Lattice Transformer,无损引入词汇信息
改进2:相对位置编码,让Transformer适用NER任务

将Lattice结构平铺

文章将Lattice结构平铺为一序列的span,这些span有3种类型:token、head和tail。一个token可以是字也可以词,如Figure 1(c)所示。head和tail分别表示token在原始句子中的起始和终止索引位置。对于字符token,head和tail值相同。通过这种方式可以记录token在lattice结构中的位置,且易于重建回原始的lattice结构,因此这种平铺的结构能够完全保留原始lattice结构信息。正因为如此,FLAT可以直接建模字符与所有匹配的词汇信息间的交互,例如,字符[药]可以匹配词汇[人和药店][药店]

image.png

span的相对位置编码

从Figure 1(c)可以看出FLAT使用了两个位置编码(head position encoding 和 tail position encoding), 那么是否可以采用绝对位置编码呢?同样来自邱锡鹏老师组的论文TENER: Adapting Transformer Encoder for Named Entity Recognition给出答案:原生Transformer中的绝对位置编码并不直接适用于NER任务

TENER论文发现:对于NER任务来说,位置和方向信息十分重要。如下图所示,在「Inc.」前的单词更可能的实体类型是「ORG」,在「in」后的单词更可能为时间或地点。而对于方向性的感知有助于单词识别其邻居是否构成一个连续的实体Span。可见,对于「距离」和「方向性」的感知对于Transformer应用于NER任务至关重要。

image.png

但是,原生Transformer的绝对位置编码本身缺乏方向性。向量点积(inner dot)的交换性使得self-attention在方向性上有信息损失,因此文章使用相对位置编码。

为encoder不同span之间的交互,文章对span使用相对位置编码。2个span $x_i$和$x_j$之间3种关系:相交、包含、独立。这些关系取决于heads和tails值。文章中使用dense vector来对他们之间的关系进行建模。头部和尾部信息不仅可以表示两个token的关系,还能够表示一些更详细的信息,例如一个字符和一个单词之间的距离。
假定$head[i]$和$tail[i]$表示spand $x_i$的头部和尾部位置,spand $x_i$和spand $x_j$之间有4种距离:

$$ \begin{aligned} d_{i j}^{(h h)} &=h e a d[i]-h e a d[j], \\ d_{i j}^{(h t)} &=h e a d[i]-\operatorname{tail}[j] \\ d_{i j}^{(t h)} &=\operatorname{tail}[i]-h e a d[j] \\ d_{i j}^{(t t)} &=\operatorname{tail}[i]-\operatorname{tail}[j] \end{aligned} $$
其中 $d_{i j}^{(h h)}$ 表示head $x_i$ 和 tail $x_j$之间的距离,$d_{i j}^{(h t)}, d_{i j}^{(t h)}, d_{i j}^{(t t)}$同理。 这两个spand最终的相对位置编码是上述4个距离的简单非线性变换:

$$ R_{i j}=\operatorname{ReLU}\left(W_r\left(\mathbf{p}_{d_{i j}^{(h h)}} \oplus \mathbf{p}_{d_{i j}^{(t h)}} \oplus \mathbf{p}_{d_{i j}^{(h t)}} \oplus \mathbf{p}_{d_{i j}^{(t t)}}\right)\right), $$

其中 $W_r$ 是待学习的参数, $\oplus$表示拼接操作, $\mathbf{p}_d$与原生的Transformer相同:

$$ \begin{array}{r} \mathbf{p}_d^{(2 k)}=\sin \left(d / 10000^{2 k / d_{\text {model }}}\right) \\ \mathbf{p}_d^{(2 k+1)}=\cos \left(d / 10000^{2 k / d_{\text {model }}}\right) \end{array} $$
其中 $d$ 表示 $d_{i j}^{(h h)}, d_{i i}^{(h t)}, d_{i j}^{(t h)}$ 或 $d_{i j}^{(t t)}$,$k$表示位置编码各个维度的索引。再使用XLNet中的的自注意力机制使用span相对位置编码:

$$ \begin{aligned} \mathbf{A}_{i, j}^* &=\mathbf{W}_q^{\top} \mathbf{E}_{x_i}^{\top} \mathbf{E}_{x_j} \mathbf{W}_{k, E}+\mathbf{W}_q^{\top} \mathbf{E}_{x_i}^{\top} \mathbf{R}_{i j} \mathbf{W}_{k, R} \\ &+\mathbf{u}^{\top} \mathbf{E}_{x_j} \mathbf{W}_{k, E}+\mathbf{v}^{\top} \mathbf{R}_{i j} \mathbf{W}_{k, R}, \end{aligned} $$

其中 $\mathbf{W}_q, \mathbf{W}_{k, R}, \mathbf{W}_{k, E} \in \mathbb{R}^{d_{\text {model }} \times d_{\text {head }}}$,$\mathbf{u}, \mathbf{v} \in \mathbb{R}^{d_{\text {head }}}$是待学习的参数。

image.png

相关文章
|
25天前
|
API 数据安全/隐私保护 Windows
图文手把手教你 OpenClaw 对接阿里云百炼大模型
本教程为OpenClaw 2.7.1 Windows版接入阿里云百炼的超详细图文指南,涵盖API Key创建、密钥配置、模型测试及常见问题排查,步骤清晰、避坑实用,助新手10分钟完成大模型能力接入。(239字)
|
存储 开发工具 git
Pycharm git-创建本地仓库\创建分支\合并分支\回溯版本\加入git后文件颜色代表的含义
Pycharm git-创建本地仓库\创建分支\合并分支\回溯版本\加入git后文件颜色代表的含义
1581 0
|
8月前
|
存储 数据采集 自然语言处理
56_大模型微调:全参数与参数高效方法对比
随着大型语言模型(LLM)规模的不断增长,从数百亿到数千亿参数,传统的全参数微调方法面临着计算资源消耗巨大、训练效率低下等挑战。2025年,大模型微调技术已经从早期的全参数微调发展到如今以LoRA、QLoRA为代表的参数高效微调方法,以及多种技术融合的复杂策略。本文将深入对比全参数微调和参数高效微调的技术原理、适用场景、性能表现和工程实践,为研究者和工程师提供全面的技术参考。
1329 0
|
机器学习/深度学习 数据采集 算法
Python实现Naive Bayes贝叶斯分类模型(GaussianNB、MultinomialNB算法)项目实战
Python实现Naive Bayes贝叶斯分类模型(GaussianNB、MultinomialNB算法)项目实战
|
人工智能
写歌词的技巧和方法:构建独特歌词结构的策略,妙笔生词AI智能写歌词软件
歌词创作如同搭建艺术殿堂,独特的歌词结构是其基石。掌握构建策略,让你的歌词脱颖而出。开头营造神秘氛围或出人意料的情感,主体部分采用倒叙、插叙或融合矛盾情感,结尾带来情感反转或深邃思考。《妙笔生词智能写歌词软件》提供 AI 智能写词、押韵优化等功能,助你轻松获取灵感,打造独特歌词结构。
|
机器学习/深度学习 搜索推荐 PyTorch
特征交互(Feature Interaction)
特征交互(Feature Interaction)
1630 3
|
编译器 Linux API
BCC和libbpf的转换
BCC和libbpf的转换
393 3
|
JSON 前端开发 数据格式
layui 穿梭框transfer组件 数据data用ajax来获取
layui 穿梭框transfer组件 数据data用ajax来获取
660 2
|
数据挖掘 索引 Python
Pandas read_csv 参数详解
Pandas的`read_csv`函数用于从CSV文件中加载数据,转换为DataFrame。本文详述了其常用参数,如`filepath_or_buffer`(接受路径、URL或文件对象)、`sep`/`delimiter`(字段分隔符,默认为逗号)、`header`(列名行号,默认0)、`names`(自定义列名)、`index_col`(设定索引列)、`usecols`(选择读取的列)、`skiprows`/`nrows`/`skipfooter`(跳过或只读指定行数)和`parse_dates`(解析日期列)。理解这些参数有助于高效处理CSV数据。
|
存储 并行计算 算法
FlashAttention算法详解
这篇文章的目的是详细的解释Flash Attention,为什么要解释FlashAttention呢?因为FlashAttention 是一种重新排序注意力计算的算法,它无需任何近似即可加速注意力计算并减少内存占用。所以作为目前LLM的模型加速它是一个非常好的解决方案,本文介绍经典的V1版本,最新的V2做了其他优化我们这里暂时不介绍。因为V1版的FlashAttention号称可以提速5-10倍,所以我们来研究一下它到底是怎么实现的。
1554 0