【文本分类】《融合后验概率校准训练的文本分类算法》

简介: 【文本分类】《融合后验概率校准训练的文本分类算法》

·阅读摘要:

 本文主要提出后验概率校准、负例监督两个创新点,提升了实验精度。

·参考文献:

 [1] 融合后验概率校准训练的文本分类算法

参考论文信息


  论文名称:《融合后验概率校准训练的文本分类算法》

  发布期刊:《计算机应用》

  期刊信息:CSCD扩展

image.png

[0] 摘要


  目前文本分类存在一定问题:

  1、随着模型的准确率越来越高,其预测结果的置信度就不再能匹配高准确率;

  2、模型的分类器在为语义相似的文本分配不同标签的情况下性能下降。

  论文提出 后验概率校准负例监督模型(PosCal-negative) 来解决以上问题。

【注】:后验概率校准为了解决第一个问题,负例监督为了解决第二个问题。

[1] 相关工作


  后验概率校准要解决的问题

 神经网络中预测结果的置信度就是分类类别的后验概率。

     在某些情况下,随着神经网络分类性能的提高,模型盲目自信的问题也越来越严重。单方面的增加网络的深度和宽度均会使得模型的分类错误降低,但是同时模型准确率和置信度越加不匹配。

     在大规模的二分类神经网络模型上进一步进行实验,因为模型足够复杂,大多数样本都以极接近于1或极接近于0的后验概率判定为正类,很少有样本的预测后验概率落入0.1到0.9区间内。

  为了校准后验概率,提出了许多后处理方法,Zadrozny提出了 Histogram binning方法;Naeini提出了贝叶斯分位数方法(Bayesian Binning into Quantiles,BBQ);Platt提出了 Platt scaling方法。

  本文提出了PosCal,一个简单但有效的端到端后验概率校准模块,不同于后处理的校准方法,PosCal在训练过程中动态地对预测后验概率和经验后验概率之间的差异进行惩罚。

  负例监督要解决的问题

  在文本分类任务中,当分类标签分配的标准与语义相似性不一致时,由于语义相似性的过多影响,分类器往往容易出错。这是因为编码器将文本转换为表示文本语义的特征向量,语义相似的文本具有相近的特征向量表示,这时分类器可能区分不出相似文本间导致标签分配不同的细微差别。

  在文本分类任务中,当分类标签分配的标准与语义相似性不一致时,由于语义相似性的过多影响,分类器往往容易出错。这是因为编码器将文本转换为表示文本语义的特征向量,语义相似的文本具有相近的特征向量表示,这时分类器可能区分不出相似文本间导致标签分配不同的细微差别。

image.png

image.png

相关文章
|
20天前
|
存储 机器学习/深度学习 算法
蓝桥杯练习题(三):Python组之算法训练提高综合五十题
蓝桥杯Python编程练习题的集合,涵盖了从基础到提高的多个算法题目及其解答。
36 3
蓝桥杯练习题(三):Python组之算法训练提高综合五十题
|
16天前
|
数据采集 监控 安全
厂区地图导航制作:GIS技术与路径导航算法融合
在智能化、数字化时代,GIS技术为厂区的运营管理带来了革命性变化。本文探讨了如何利用GIS技术,通过数据采集、地图绘制、路径规划、位置定位和信息查询等功能,打造高效、精准的智能厂区地图导航系统,提升企业的竞争力和管理水平。
22 0
厂区地图导航制作:GIS技术与路径导航算法融合
|
24天前
|
机器学习/深度学习 算法 决策智能
【机器学习】揭秘深度学习优化算法:加速训练与提升性能
【机器学习】揭秘深度学习优化算法:加速训练与提升性能
|
2月前
|
机器学习/深度学习 人工智能 算法
【新闻文本分类识别系统】Python+卷积神经网络算法+人工智能+深度学习+计算机毕设项目+Django网页界面平台
文本分类识别系统。本系统使用Python作为主要开发语言,首先收集了10种中文文本数据集("体育类", "财经类", "房产类", "家居类", "教育类", "科技类", "时尚类", "时政类", "游戏类", "娱乐类"),然后基于TensorFlow搭建CNN卷积神经网络算法模型。通过对数据集进行多轮迭代训练,最后得到一个识别精度较高的模型,并保存为本地的h5格式。然后使用Django开发Web网页端操作界面,实现用户上传一段文本识别其所属的类别。
79 1
【新闻文本分类识别系统】Python+卷积神经网络算法+人工智能+深度学习+计算机毕设项目+Django网页界面平台
|
27天前
|
算法 Java C++
【贪心算法】算法训练 ALGO-1003 礼物(C/C++)
【贪心算法】算法训练 ALGO-1003 礼物(C/C++)
【贪心算法】算法训练 ALGO-1003 礼物(C/C++)
|
27天前
|
算法 C++
蓝桥 算法训练 共线(C++)
蓝桥 算法训练 共线(C++)
|
4月前
knn增强数据训练
【7月更文挑战第27天】
35 10
|
4月前
|
数据采集 编解码 人工智能
破解ChatGPT惊人耗电!DeepMind新算法训练提效13倍,能耗暴降10倍
【7月更文挑战第19天】DeepMind的JEST算法革新AI训练,提升效率13倍,节能10倍。通过联合数据批次选择,预训练指导及多分辨率训练,优化资源利用,降低能耗。实验显示性能提升,达到SOTA水平,但实施需大量资源,依赖优质参考模型。[论文链接](https://arxiv.org/pdf/2406.17711)
65 10
|
4月前
knn增强数据训练
【7月更文挑战第28天】
36 2
|
3月前
|
算法 搜索推荐
支付宝商业化广告算法问题之基于pretrain—>finetune范式的知识迁移中,finetune阶段全参数训练与部分参数训练的效果如何比较
支付宝商业化广告算法问题之基于pretrain—>finetune范式的知识迁移中,finetune阶段全参数训练与部分参数训练的效果如何比较