如何降低疾病监测的漏诊比率?一种新的分类学习算法

简介: 在高风险分类(例如:高死亡率疾病监测、自动驾驶等场景)中控制假阳性率是非常重要的,由算法得出的结果将对个人产生巨大的影响。遗漏一名潜在病人的风险,远远高于误诊一名正常人。因此,我们希望在保证分类器假阳性率(即错误地将负样本分类为正样本的概率) 低于某个阈值 τ 的前提下,最小化其误分正样本的概率。

小叽导读:在高风险分类(例如:高死亡率疾病监测、自动驾驶等场景)中控制假阳性率是非常重要的,由算法得出的结果将对个人产生巨大的影响。遗漏一名潜在病人的风险,远远高于误诊一名正常人。因此,我们希望在保证分类器假阳性率(即错误地将负样本分类为正样本的概率) 低于某个阈值 τ 的前提下,最小化其误分正样本的概率。下面,我们就一起来看看阿里工程师如何实现这个目标。

作者:张翱,李楠,浦剑,王骏,严骏驰,查宏远

摘要

许多实际应用需要在满足假阳性率上限约束的前提下学习一个二分类器。对于该问题,现存方法往往通过调整标准分类器的参数,或者引入基于领域知识的不平衡分类损失来达到目的。由于没有显式地将假阳性率上限融合到模型训练中,这类方法的精度往往受到制约。

本文提出了一个新的排序——阈值方法τ-FPL 解决这个问题。首先,我们设计了一个新的排序学习方法,其显式地将假阳性率上限值纳入考虑,并且展示了如何高效地在线性时间内求得该排序问题的全局最优解;而后将学到的排序函数转化为一个低假阳性率的分类器。通过理论误差分析以及实验,我们验证了τ-FPL对比传统方法在性能及精度上的优越性。

研究背景

在疾病监测,风险决策控制,自动驾驶等高风险的分类任务中,误报正样本与负样本所造成的损失往往是不同的。例如,在高死亡率疾病检测的场景下,遗漏一名潜在病人的风险,要远高于误诊一名正常人。另一方面,两类错误的损失比也很难量化估计。在这种情况下,一个更加合理的学习目标是:我们希望可以在保证分类器假阳性率(即错误地将负样本分类为正样本的概率) 低于某个阈值 τ 的前提下,最小化其误分正样本的概率。可以看到,由于问题的转换,传统的基于精度(Accuracy),曲线下面积(AUC) 等目标的学习算法将不再适用。

假阳性率约束下的分类学习,在文献中被称为Neyman-Pearson 分类问题。现存的代表性方法主要有代价敏感学习(Cost-sensitive learning),拉格朗日交替优化(LagragianMethod), 排序——阈值法(Ranking-Thresholding)等。然而,这些方法通常面临一些问题,限制了其在实际中的使用:

需要额外的超参数选择过程,难以较好地匹配指定的假阳性率;

排序学习或者交替优化的训练复杂度较高,难以大规模扩展;

通过代理函数或者罚函数来近似约束条件,可能导致其无法被满足。

因此,如何针对现有方法存在的问题,给出新的解决方案,是本文的研究目标。

动机:从约束分类到排序学习

考虑经验版本的Neyman-Pearson分类问题,其寻找最优的打分函数f与阈值b,使得在满足假阳性率约束的前提下,最小化正样本的误分概率:

_


我们尝试消除该问题中的约束。首先,我们阐述一个关键的结论:经验Neyman-Pearson分类与如下的排序学习问题是等价的,即它们有相同的最优解f以及最优目标函数值:

_


这里, f(x[j]^-)表示取负样本中第j大的元素。直观上讲,该问题本身是一个pairwise ranking问题,其将所有的正样本与负样本中第τn大的元素相比较。从优化AUC的角度,该问题也可看作一个部分AUC优化问题,如图1所示,其尝试最大化假阳性率τ附近的曲线下面积。

_


图1: Neyman-Pearson分类等价于一个部分AUC优化问题

然而,由于引入了取序操作符[.],可以证明,即使将0-1损失用连续函数替换,该优化问题本身也是NP-hard的。因此,我们考虑优化该问题的一个凸上界:

_


这里l是任意0-1损失的凸代理函数(convex surrogate function)。(2)仍然是一个排序问题,其尝试最大化负样本中得分最高的那部分的“质心”与正样本之间的距离。这个新问题有一些良好的性质:

通过设计高效的学习算法,我们可以在线性时间内求得该问题的全局最优解,这使其非常适合于大规模数据下的场景;

形式上显式地包含τ,无需引入额外的损失超参数(cost-free);

最优解f有可理论保证的泛化误差界。

我们也可以从对抗学习(Adversarial learning)的角度,给出排序问题(2) 的一个直观解释。读者可以验证,(2)与如下的对抗学习问题是等价的:

_


其中k = τn,且

_


换句话说,排序学习问题(2)可以看作是在两个玩家——打分函数A与样本分布B间进行的一个min-max游戏。对于A给出的每个f,B尝试从负样本分布的集合△中给出一个最坏的分布p,以最小化A的期望收益。该游戏达到纳什均衡(Nash equilibrium)时的稳点,也就是我们要求的最优解。

τ-FPL算法总览

如上所述,τ-FPL的训练分为两个部分,排序(scoring)与阈值(thresholding)。在排序阶段,算法学习一个排序函数,其尝试将正样本排在负样本中得分最高的那部分的“质心”之前。阈值阶段则选取合适的阈值,将学到的排序函数转化为二分类器。

排序学习优化算法

考虑与(2)等价的对抗学习问题(3),其对偶问题如下:

_


这个新问题不含任何不可导项,并且目标函数g是光滑的(Smooth)。因此,我们可以使用投影梯度下降算法求解该问题,并利用加速梯度方法(Nesterov)获得最优的收敛率。

_


线性时间的变上界欧式投影

排序学习算法的一个关键步骤,是将梯度下降的解投影到可行集Gamma_k上。我们注意到,这个投影问题是一大类被广泛研究的欧式投影问题的推广。然而传统方法仅对一些特例可以高效求解,即便对于该问题的一个简化版本,也仅能达到O(nlogn +τn^2) 的超线性复杂度。

本文中,我们提出了一个算法,能够在O(n) 的线性时间内高效地求解该投影问题,且其性能不受τ增长所带来的影响。该算法的核心是二分求根法与分治法的有效结合。根据KKT最优条件,我们将投影问题转换为一个求解分段线性方程组的问题,该方程组仅包含三个未知的对偶变量,且可以通过二分求根法获得指定精度的解。进一步地,利用方程组分段线性的特殊结构,以及对偶变量间“同变”的单调性质,我们可以在二分过程中逐步减少每次迭代的计算消耗,最终显著减少总的算法运行时间。实验中,我们观察到随着n与τ的增长,我们的算法较现有的求解该类问题的方法有一至三个数量级的性能提升,见图2。

_


图2:我们的方法与现存算法(PTkC)在求解简化版问题时的性能对比(log-log曲线)

阈值选择

阈值选择阶段,算法每次将训练集分为两份,一份训练排序函数, 另一份用来选取阈值。该过程可以进行多次,以充分利用所有样本,最终的阈值则是多轮阈值的平均。该方法结合了out-of-bootstrap与软阈值技术分别控制偏差及方差的优点,也适于并行。

理论结果

收敛率与时间复杂度

通过结合加速梯度方法与线性时间投影算法,τ-FPL可以确保每次迭代的线性时间消耗以及最优的收敛率。图3将τ-FPL 与一些经典方法进行了对比,可以看到其同时具备最优的训练及验证复杂度。

泛化性能保证

我们也从理论上给出了τ-FPL学得模型的泛化误差界,证明了泛化误差以很高的概率被经验误差所上界约束。这给予了我们设法求解排序问题(2)的理论支持。

_


图3:不同算法的训练复杂度比较

实验结果

_


图4报告了不同算法优化部分AUC的效果,'N/A'代表该模型的训练无法在一周内完成。可以看到,τ-FPL对于不同τ值,在大部分实验中都具有较好的表现。另外,其相比二分排序算法有明显的性能优势。

_


图5比较了不同算法输出的分类器的分类性能。这里选取NP-score 作为评价标准,其综合考虑了分类器间的精度差异与违背假阳性率约束的惩罚。可以看到,采用OOB 阈值的算法在大部分情况下均可有效地抑制假阳性率在允许范围内。另外,即使采用同样的阈值选择方法,τ-FPL 也可以获得较代价敏感学习(CS-SVM-OOB) 更好的精度。

总结

在高风险分类任务中控制假阳性率是重要的。本文中,我们主要研究在指定的假阳性率容忍度τ下学习二分类器。为此,我们提出了一个新的排序学习问题,其显式地最大化将正样本排在前 τ% 负样本的质心之上的概率。通过结合加速梯度方法与线性时间投影,该排序问题可以在线性时间内被高效地解决。我们通过选取合适的阈值将学到的排序函数转换为低假阳性率的分类器,并从理论和实验两个角度验证了所提出方法的有效性。

原文发布时间为:2018-08-15
本文作者: 热爱论文的
本文来自云栖社区合作伙伴“ 阿里巴巴机器智能”,了解相关信息可以关注“ 阿里巴巴机器智能”。

相关文章
|
机器学习/深度学习 编解码 计算机视觉
Transformer又一城 | Swin-Unet:首个纯Transformer的医学图像分割模型解读
Transformer又一城 | Swin-Unet:首个纯Transformer的医学图像分割模型解读
2699 0
|
运维 关系型数据库 数据库
卸载OceanBase数据库的OCP
卸载OceanBase数据库的OCP
887 1
|
12月前
|
存储 人工智能 关系型数据库
《深度揭秘:借助MySQL实现AI模型训练全程追溯》
在AI模型训练中,记录训练过程与参数至关重要,有助于优化模型、促进团队协作及问题排查。MySQL凭借强大的数据管理能力,可高效存储和处理结构化数据,确保一致性与完整性。通过设计合理的表结构(如模型信息表、训练记录表等),结合规范的记录流程,能有效支持大规模AI项目。然而,也需应对数据量增长、一致性维护和数据安全等挑战,以充分发挥MySQL的优势,推动AI技术发展。
402 29
|
12月前
|
机器学习/深度学习 人工智能 算法
《深度洞察:AI助力MySQL性能困局突围》
在数据驱动的业务体系中,MySQL作为核心关系型数据库,常因数据量增长、应用复杂度提升而面临性能下降问题。传统人工排查效率低且难以应对复杂情况,而AI技术凭借强大的数据分析与模式识别能力,可高效定位性能瓶颈并提出优化方案。通过收集与分析MySQL性能指标、查询日志等数据,AI能精准发现异常根源,如查询优化问题或资源配置不足,并动态调整优化策略。这不仅提升了MySQL性能与稳定性,还为业务发展提供了坚实支撑,展现了AI在数据库管理领域的巨大潜力。
388 15
|
12月前
|
存储 Java
【源码】【Java并发】【ThreadLocal】适合中学者体质的ThreadLocal源码阅读
前言 下面,跟上主播的节奏,马上开始ThreadLocal源码的阅读( ̄▽ ̄)" 内部结构 如下图所示,我们可以知道,每个线程,都有自己的threadLocals字段,指向ThreadLocalMap
607 81
【源码】【Java并发】【ThreadLocal】适合中学者体质的ThreadLocal源码阅读
|
12月前
|
程序员 测试技术 开发工具
怎么开发Python第三方库?手把手教你参与开源项目!
大家好,我是程序员晚枫。本文将分享如何开发Python第三方库,并以我维护的开源项目 **popdf** 为例,指导参与开源贡献。Popdf是一个PDF操作库,支持PDF转Word、转图片、合并与加密等功能。文章涵盖从fork项目、本地开发、单元测试到提交PR的全流程,适合想了解开源贡献的开发者。欢迎访问[popdf](https://gitcode.com/python4office/popdf),一起交流学习!
363 21
怎么开发Python第三方库?手把手教你参与开源项目!
|
12月前
|
人工智能 关系型数据库 MySQL
《深度探秘:解锁开源社区中MySQL与AI集成的资源宝库》
在数据管理与AI融合的前沿领域,MySQL与AI的集成成为开发者和数据科学家关注的焦点。开源社区作为技术爱好者的智慧殿堂,提供了丰富的支持与资源。本文从开源社区的活力生态出发,探讨如何通过专业论坛、代码托管平台及技术博客精准获取资源,并通过深度参与社区互动、筛选整合优质内容,构建个人知识体系。掌握这些方法,不仅能提升技术能力,还能推动MySQL与AI集成在实际项目中的创新应用,为数据驱动的未来贡献力量。
312 26
|
12月前
|
存储 监控 API
【Azure App Service】分享使用Python Code获取App Service的服务器日志记录管理配置信息
本文介绍了如何通过Python代码获取App Service中“Web服务器日志记录”的配置状态。借助`azure-mgmt-web` SDK,可通过初始化`WebSiteManagementClient`对象、调用`get_configuration`方法来查看`http_logging_enabled`的值,从而判断日志记录是否启用及存储方式(关闭、存储或文件系统)。示例代码详细展示了实现步骤,并附有执行结果与官方文档参考链接,帮助开发者快速定位和解决问题。
325 22
|
12月前
|
存储 人工智能 关系型数据库
《大佬都在用!MLflow、DVC助力MySQL与AI模型完美融合》
在AI与数据管理深度融合的背景下,确保模型的可追溯性、可重复性及高效管理至关重要。MySQL作为关系型数据库,与MLflow和DVC等工具集成,为解决这些挑战提供了有效途径。这种集成通过实验跟踪、模型注册与部署、数据版本控制等功能,提升了AI项目的开发效率与生产环境中的稳定性。 MLflow负责实验记录、模型注册与部署,结合MySQL实现持久化存储;DVC专注于数据版本控制,确保实验可重复性与团队协作效率。然而,集成过程中也面临数据一致性、性能扩展及安全权限管理等挑战,需通过优化流程和技术手段应对。
438 22
|
12月前
|
SQL 边缘计算 人工智能
中小企业数字化转型的低成本路径:Websoft9 助力用户从 0 到 1 的实践经验
开源软件正成为企业数字化转型的核心引擎,尤其对中小企业而言,其零授权成本、技术自主与敏捷迭代特性优势显著。Websoft9 数据显示,采用开源技术可使初期投入降低62%,同时通过成本重构、敏捷响应及安全可控三大价值闭环助力企业发展。然而,技术鸿沟如组件筛选难、环境配置繁等问题仍制约企业应用开源的步伐。对此,Websoft9 提供工程化解决方案,涵盖智能匹配引擎、全生命周期运维体系与标准化集成平台,赋能企业从基础设施到智能应用的全场景实践。最终,通过模块贡献和技术反哺,Websoft9 推动企业从使用者向共建者转变,实现数字化生存范式的全面重构。

热门文章

最新文章