二、Attention
CNN和RNN在文本分类任务中表现出色。然而,这些模型不够直观,可解释性差,特别是在分类错误中,由于隐藏数据的不可读性而无法解释。随后,基于注意力的方法被成功地应用于文本分类中。基于注意力的模型架构如图8。注意力机制让模型对特定的输入给予不同的注意。它首先将重要的词聚集成句子向量,然后将重要的句子向量聚集成文本向量。它可以了解每个词和句子对分类判断的贡献有多大,这有利于通过两个层次的关注进行应用和分析。
图8 注意力机制架构
2.1 AttentionXML
AttentionXML是针对多标签分类(XML)问题引入注意力机制,文章发表在 NeurIPS 2019中 。本文提出一种基于树结构的模型,即probabilistic label tree (PLT),来解决标签数量大的问题。
XML-CNN的方法是将所有的labels看作平行结构,类似one-hot,这样导致所有的label都基于一个共同的表征向量来学习预测。PLT是一棵有L个叶子的树,每个叶子都对应着一个原始标签。首先将label文本用特征向量表示,然后用递归聚类构建label tree,生成的树结构,叶子节点是真实标签,非叶子节点是伪标签。本文对PLT做了改进,构建了一个较浅并且很宽的树结构。
AttentionXML的过程如图9所示:(1) 给PLT中每一个level训练一个模型;(2) 从d-1层选出TOP c个标签作为下一层训练的候选标签,以d-1层训练得到的权重作为以d层训练的初始化;(3) 用d层训练好的模型,只预测属于d-1层TOP c节点中的子节点。
图9 用于多标签文本分类任务的基于标签树的深度模型Attention XML。(a) AttentionXML中使用的PLT的例子。(b) PLT构建过程的一个例子,设置为K=M=8=23,H=3,L=8000。从左到右的数字表示从上到下每一层的节点。红色的数字表示为了得到T_h+1而被删除的T_h中的节点。(c) 在AttentionXML中,以文本(长度Tˆ)为输入,以预测分数zˆ为输出的注意力感知深度模型的概述
当前 SOTA!平台收录 AttentionXML 共 1 个模型实现资源。
模型 | SOTA!平台模型详情页 |
AttentionXML | 前往 SOTA!模型平台获取实现资源:https://sota.jiqizhixin.com/models/models/839883d4-569c-4d5c-9457-e5a374375875 |
前往 SOTA!模型资源站(sota.jiqizhixin.com)即可获取本文中包含的模型实现代码、预训练模型及API等资源。
网页端访问:在浏览器地址栏输入新版站点地址 sota.jiqizhixin.com ,即可前往「SOTA!模型」平台,查看关注的模型是否有新资源收录。
移动端访问:在微信移动端中搜索服务号名称「机器之心SOTA模型」或 ID 「sotaai」,关注 SOTA!模型服务号,即可通过服务号底部菜单栏使用平台功能,更有最新AI技术、开发资源及社区动态定期推送。