【多标签文本分类】Improved Neural Network-based Multi-label Classification with Better Initialization ……

简介: 【多标签文本分类】Improved Neural Network-based Multi-label Classification with Better Initialization ……

·阅读摘要:

 提出了一种新的神经网络初始化方法:利用标签共现初始化最终隐藏层。

 [1] Improved Neural Network-based Multi-label Classification

with Better Initialization Leveraging Label Co-occurrence

【注一】:重要概念:

标签共现:一个文本会有多个标签,这种现象叫做标签共现。

标签共现模式:设一个多标签分类数据集有a-z共26个标签,那么a-z的任何一种大于2个标签的组合都可以成为是一个标签共现模式(pattern),形如{a,b}、{x,y,z}等等等等。

[0] 摘要


  提出了一种新的神经网络初始化方法:把最后一层隐含层中的一些神经元作为每个标签共现模式的专用神经元。这些专用的神经元权重被初始化,以连接到相应的共现标签,这些标签具有比其他标签更强的权重。

【注二】:最后一层隐含层,是指在最后用于分类的全连接层。

[1] 介绍


 在多标签文本分类中,一个文本可以与多个标签相关联。


 提出了一种新颖的神经网络初始化方法,将最终隐藏层中的一些神经元作为每个标签共现模式的专用神经元。这些专用的神经元被初始化,以连接到相应的共发生标签,其权重比其他的更强。


 通过一个真实的文档检索系统和公开的多标签数据集的实验,论文提出的方法简单直接地将标签共现信息嵌入到一个神经网络中,提高了NLQ分类的准确性。

[2] 相关工作


  介绍了论文使用的TextCNN模型(就是Kim发布的那一篇)。

image.png

  还介绍了三种损失函数:负对数似然、交叉熵、二元交叉熵,三种损失函数的效果论文也给出:

image.png

[3] 基于TextCNN提出改进方法


[3.1] 利用标签共现初始化最后一层网络权重

image.png

  如上图,一一介绍:

   1、上图的下方 就是一个全连接层,它的输入大小假设如图有7个,它的输出大小假设如图有5个(即是5个标签)。

   2、上图的上方 是这个全连接层的参数权重表,7*5=35个参数。假设出于某种原因、方法(这是个可以研究的点)我们找了几个比较突出的标签共现模式,体现在图中就是image.png

 对于以上2个模式,我们觉得它们在某种程度上很重要,我们希望开辟一个专用通道给它们使用。所以论文提出,初始化对应的权重参数,使它们在迭代时有优势。

 具体方法是,每一个模式对应全连接层左边的一个神经元,它的模式中有哪些标签,就设置对应标签位置上初始值为w ww,其他位置为0。其他未被分配的神经元参数都是随机的。

[3.2] 专用神经元的权重设置

  介绍神经元初始值image.png的求法:

image.png

image.png

另外,论文根据训练数据中标签共现模式的频率来改变这个值。其背景思想是,频繁出现的标签共现模式比不太频繁的模式更重要。假设在训练数据f次中出现了特定的标签共现模式,那么另外一种UB的算法为:

image.png

文中给出了各种初始值W = U B算法的效果:

image.png



相关文章
|
机器学习/深度学习 数据挖掘
【提示学习】HPT: Hierarchy-aware Prompt Tuning for Hierarchical Text Classification
本文是较早把Prompt应用到层级多标签文本分类领域的论文。思路是把层级标签分层编入到Pattern中,然后修改损失函数以适应多标签的分类任务。
441 0
|
人工智能 搜索推荐 算法
爱思唯尔的KBS——模板、投稿、返修、接收的总结
爱思唯尔的KBS——模板、投稿、返修、接收的总结
3745 3
|
22天前
|
机器学习/深度学习 算法 数据可视化
从零开始训练推理模型:GRPO+Unsloth改造Qwen实战指南
推理型大语言模型兴起,通过先思考再作答提升性能。本文介绍GRPO等强化学习算法,详解其原理并动手用Qwen2.5-3B训练推理模型,展示训练前后效果对比,揭示思维链生成的实现路径。
183 1
从零开始训练推理模型:GRPO+Unsloth改造Qwen实战指南
|
算法 Python
Python计算基尼系数实践笔记(案例+代码+视频+列表推导式)
Python计算基尼系数实践笔记(案例+代码+视频+列表推导式)
1986 0
Python计算基尼系数实践笔记(案例+代码+视频+列表推导式)
|
JSON 数据挖掘 API
天猫店铺商品数据接口集成指南与实战技巧
**天猫商品API概览** - **接口**: Tmall.item_search_shop, 获取店铺商品详情。 - **功能**: 开发者可获取商品标题、价格、销量等。 - **流程**: 注册天猫开放平台账户→获App Key/Secret→获取Access Token→构建URL调用API→解析JSON响应。 - **参数**: 包含店铺ID、页码、数量等。 - **返回**: JSON格式的商品列表。 - **应用**: 商品管理、电商应用开发、数据分析。此API助力商家高效管理、提升用户体验。
|
机器学习/深度学习 人工智能 Java
人工智能平台PAI产品使用合集之已经通过自定义镜像部署了一个模型,想要上传并导入其他模型,该如何操作
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
Java 应用服务中间件 Maven
第一个Spring Boot程序
第一个Spring Boot程序
391 0
|
人工智能 搜索推荐 算法
爱思唯尔的KBS——模板、投稿、返修、接收的总结
爱思唯尔的KBS——模板、投稿、返修、接收的总结
|
数据采集 人工智能 数据可视化
【译文】数据治理与BI治理
【译文】数据治理与BI治理
243 0
【译文】数据治理与BI治理
数学建模——最大流问题(配合例子说明)(一)
数学建模——最大流问题(配合例子说明)
528 0