【文本分类】《融合后验概率校准训练的文本分类算法》

简介: 【文本分类】《融合后验概率校准训练的文本分类算法》

·阅读摘要:

 本文主要提出后验概率校准、负例监督两个创新点,提升了实验精度。

·参考文献:

 [1] 融合后验概率校准训练的文本分类算法

参考论文信息


  论文名称:《融合后验概率校准训练的文本分类算法》

  发布期刊:《计算机应用》

  期刊信息:CSCD扩展

image.png

[0] 摘要


  目前文本分类存在一定问题:

  1、随着模型的准确率越来越高,其预测结果的置信度就不再能匹配高准确率;

  2、模型的分类器在为语义相似的文本分配不同标签的情况下性能下降。

  论文提出 后验概率校准负例监督模型(PosCal-negative) 来解决以上问题。

【注】:后验概率校准为了解决第一个问题,负例监督为了解决第二个问题。

[1] 相关工作


  后验概率校准要解决的问题

 神经网络中预测结果的置信度就是分类类别的后验概率。

     在某些情况下,随着神经网络分类性能的提高,模型盲目自信的问题也越来越严重。单方面的增加网络的深度和宽度均会使得模型的分类错误降低,但是同时模型准确率和置信度越加不匹配。

     在大规模的二分类神经网络模型上进一步进行实验,因为模型足够复杂,大多数样本都以极接近于1或极接近于0的后验概率判定为正类,很少有样本的预测后验概率落入0.1到0.9区间内。

  为了校准后验概率,提出了许多后处理方法,Zadrozny提出了 Histogram binning方法;Naeini提出了贝叶斯分位数方法(Bayesian Binning into Quantiles,BBQ);Platt提出了 Platt scaling方法。

  本文提出了PosCal,一个简单但有效的端到端后验概率校准模块,不同于后处理的校准方法,PosCal在训练过程中动态地对预测后验概率和经验后验概率之间的差异进行惩罚。

  负例监督要解决的问题

  在文本分类任务中,当分类标签分配的标准与语义相似性不一致时,由于语义相似性的过多影响,分类器往往容易出错。这是因为编码器将文本转换为表示文本语义的特征向量,语义相似的文本具有相近的特征向量表示,这时分类器可能区分不出相似文本间导致标签分配不同的细微差别。

  在文本分类任务中,当分类标签分配的标准与语义相似性不一致时,由于语义相似性的过多影响,分类器往往容易出错。这是因为编码器将文本转换为表示文本语义的特征向量,语义相似的文本具有相近的特征向量表示,这时分类器可能区分不出相似文本间导致标签分配不同的细微差别。

image.png

image.png

相关文章
|
3月前
|
机器学习/深度学习 算法 机器人
【水下图像增强融合算法】基于融合的水下图像与视频增强研究(Matlab代码实现)
【水下图像增强融合算法】基于融合的水下图像与视频增强研究(Matlab代码实现)
329 0
|
6月前
|
传感器 机器学习/深度学习 分布式计算
卡尔曼滤波的多传感器数据融合算法
卡尔曼滤波的多传感器数据融合算法
879 0
|
4月前
|
机器学习/深度学习 并行计算 算法
【超级棒的算法改进】融合鱼鹰和柯西变异的麻雀优化算法研究(Matlab代码实现)
【超级棒的算法改进】融合鱼鹰和柯西变异的麻雀优化算法研究(Matlab代码实现)
176 1
|
4月前
|
传感器 算法 数据挖掘
基于协方差交叉(CI)的多传感器融合算法matlab仿真,对比单传感器和SCC融合
基于协方差交叉(CI)的多传感器融合算法,通过MATLAB仿真对比单传感器、SCC与CI融合在位置/速度估计误差(RMSE)及等概率椭圆上的性能。采用MATLAB2022A实现,结果表明CI融合在未知相关性下仍具鲁棒性,有效降低估计误差。
246 15
|
4月前
|
传感器 算法 Shell
【使用卡尔曼滤波器将陀螺仪和加速度计的读数融合,以获取IMU的姿态(四元数)】实现了所谓的“零速度更新”算法,用于行人跟踪(步态跟踪)(Matlab代码实现)
【使用卡尔曼滤波器将陀螺仪和加速度计的读数融合,以获取IMU的姿态(四元数)】实现了所谓的“零速度更新”算法,用于行人跟踪(步态跟踪)(Matlab代码实现)
223 8
|
5月前
|
传感器 机器学习/深度学习 算法
多旋翼无人机组合导航系统-多源信息融合算法(Matlab代码实现)
多旋翼无人机组合导航系统-多源信息融合算法(Matlab代码实现)
218 3
|
5月前
|
机器学习/深度学习 传感器 边缘计算
【轴承故障诊断】基于融合鱼鹰和柯西变异的麻雀优化算法OCSSA-VMD-CNN-BILSTM轴承诊断研究【西储大学数据】(Matlab代码实现)
【轴承故障诊断】基于融合鱼鹰和柯西变异的麻雀优化算法OCSSA-VMD-CNN-BILSTM轴承诊断研究【西储大学数据】(Matlab代码实现)
141 0
|
存储 机器学习/深度学习 算法
蓝桥杯练习题(三):Python组之算法训练提高综合五十题
蓝桥杯Python编程练习题的集合,涵盖了从基础到提高的多个算法题目及其解答。
715 3
蓝桥杯练习题(三):Python组之算法训练提高综合五十题
|
机器学习/深度学习 人工智能 算法
【新闻文本分类识别系统】Python+卷积神经网络算法+人工智能+深度学习+计算机毕设项目+Django网页界面平台
文本分类识别系统。本系统使用Python作为主要开发语言,首先收集了10种中文文本数据集("体育类", "财经类", "房产类", "家居类", "教育类", "科技类", "时尚类", "时政类", "游戏类", "娱乐类"),然后基于TensorFlow搭建CNN卷积神经网络算法模型。通过对数据集进行多轮迭代训练,最后得到一个识别精度较高的模型,并保存为本地的h5格式。然后使用Django开发Web网页端操作界面,实现用户上传一段文本识别其所属的类别。
462 1
【新闻文本分类识别系统】Python+卷积神经网络算法+人工智能+深度学习+计算机毕设项目+Django网页界面平台
|
分布式计算 Java 开发工具
阿里云MaxCompute-XGBoost on Spark 极限梯度提升算法的分布式训练与模型持久化oss的实现与代码浅析
本文介绍了XGBoost在MaxCompute+OSS架构下模型持久化遇到的问题及其解决方案。首先简要介绍了XGBoost的特点和应用场景,随后详细描述了客户在将XGBoost on Spark任务从HDFS迁移到OSS时遇到的异常情况。通过分析异常堆栈和源代码,发现使用的`nativeBooster.saveModel`方法不支持OSS路径,而使用`write.overwrite().save`方法则能成功保存模型。最后提供了完整的Scala代码示例、Maven配置和提交命令,帮助用户顺利迁移模型存储路径。

热门文章

最新文章