机器学习模型可解释性实践指南(Aporia)

简介: 随着越来越多的企业采用机器学习来支持其决策过程,充分了解 ML 模型如何进行预测至关重要。构建和扩展模型生产已不足以改善结果。这些模型需要透明才能理解它们为什么做出特定的预测。

数据科学家、机器学习工程师和领域专家缺乏深入研究他们的模型并检查“为什么”的能力。它们仅限于来自标准摘要指标(如性能图表和描述性统计数据)的基本见解。能够解释模型预测是实现进一步测试、实验、改进性能和更明智决策的基础。在具有相当高的计算能力和更复杂算法的时代,模型准确性不再是数据科学家的祸根。新的挑战是理解并能够解释为什么模型会以这种方式运行,以及哪些特性是重要的。这就是模型可解释性的用武之地。

在本文中,您将了解到:

  • 什么是可解释性?
  • 为什么可解释性很重要?
  • 如何使用 Aporia 实现模型可解释性

什么是可解释性?

机器学习中的可解释性是基于数据特征、使用的算法和相关模型的环境,以人类可理解的方式理解模型输出的能力。 基本上,它是分析和理解 ML 模型提供的结果的广泛概念。 这是对“黑盒”模型概念的解决方案,它表示很难理解模型是如何得出具体决策的。

用于解决此概念的另一个短语是可解释的 AI(XAI),它描述了一组方法和工具,使人类能够理解和信任所创建的结果和输出。

网络异常,图片无法展示
|


重要的是要指出,可解释性不仅适用于机器学习工程师或数据科学家,它适用于所有人。 每个人都应该可以理解模型的任何解释——无论他们是数据科学家、企业主、客户还是用户。 因此,它应该既简单又信息丰富。

那么,为什么可解释性在机器学习中很重要?

为什么您需要 ML 模型的可解释性

  • 信任:人们通常信任他们熟悉或已有知识的事物。因此,如果他们不了解模型的内部运作,他们就无法信任它,尤其是在医疗保健或金融等高风险领域。如果不了解它如何以及为什么做出决定以及这些决定是否合理,就不可能信任机器学习模型。
  • 法规和合规性:保护科技消费者的法规要求,在公众使用技术之前,必须达到很强的可解释性。例如,如果受到人工智能算法的影响,欧盟第 679 条规定赋予消费者“对经过此类评估做出的决定作出解释并质疑该决定的权利”。此外,数据科学家、审计师和业务决策者都必须确保他们的 AI 符合公司政策、行业标准和政府法规。
  • ML 公平性和偏见:当涉及到纠正模型的公平性和偏见时,如果没有模型的可解释性,就真的无法检测它来自数据中的什么地方。由于机器学习模型中普遍存在偏见和漏洞,了解模型的工作原理是在将其部署到生产环境之前的首要任务
  • 调试:如果不了解“错误”特征或算法,就不可能获得所需的输出。因此,模型可解释性对于在开发阶段调试模型至关重要。
  • 增强控制:当您了解模型的工作原理时,您会看到未知的漏洞和缺陷。然后,在低风险情况下快速识别和纠正错误的能力就变得容易了。
  • 易于理解和提问的能力:了解模型的特征如何影响模型输出有助于您进一步提问和改进模型。

在考虑了可解释性为何如此重要的这些原因之后,了解可解释性的范围至关重要。


可解释性方法

模型可解释性有三种不同的方法:

  • 全局可解释性方法
  • 局部可解释性方法
  • 分段可解释性方法

全局可解释性方法

全局方法从整体上解释了模型的行为。全局可解释性可帮助您了解模型中的哪些特征有助于模型的整体预测。在模型训练期间,全局可解释性向利益相关者提供有关模型在做出决策时使用的特征的信息。例如,查看推荐模型的产品团队可能想知道哪些特征(关系)最能激发或吸引客户。


局部(Local)可解释性方法

局部解释有助于理解模型在局部邻域中的行为,即它解释了数据中的每个特征以及每个特征如何单独对模型的预测做出贡献

局部可解释性有助于找到生产中特定问题的根本原因。它还可用于帮助您发现哪些特征对做出模型决策最有影响。这很重要,尤其是在金融和健康等行业,其中单个特征几乎与所有特征的组合一样重要。例如,假设您的信用风险模型拒绝了贷款申请人。借助局部可解释性,您可以了解做出此决定的原因以及如何更好地为申请人提供建议。它还有助于了解模型对部署的适用性。

分段(群组)可解释性方法 [Segment(Cohort)]

介于全局和局部可解释性之间的是分段。这解释了数据的片段或切片如何有助于模型的预测。在模型验证期间,分段可解释性有助于解释模型在模型表现良好的群组与模型表现不佳的群组之间的预测差异。当异常值出现在本地邻域或数据切片中时,它还有助于解释异常值。


注意:Local 和 Cohort (Segment) 的可解释性都可以用来解释异常值。

目前有多种可解释性的方法,例如:Shap、部分依赖图、LIME、ELI5。

在处理可解释性时想到的一个问题是:模型的哪些部分正在被解释,为什么这部分很重要?让我们看看这个问题……

正在解释模型的哪些部分以及为什么特定部分很重要

  • 特征:模型的特征通常是模型解释的主要来源,因为它们构成了模型的主要组成部分。
  • 数据特性:这些可能包括:数据格式、数据完整性等。生产模型不断变化。因此,记录和监控这些变化以更好地理解和解释模型的输出非常重要。数据分布变化会影响模型预测,因此维护数据分布并充分了解数据特征对于模型可解释性很重要。
  • 算法:训练模型时使用的算法和技术的选择与数据本身一样重要。这些算法定义了特征如何交互和组合以实现模型输出。对训练算法和技术的清晰理解对于实现模型的可解释性至关重要。

为了实现可解释性,您需要能够在全局和局部解释您的模型的工具。

如何使用 Aporia 实现可解释性

Aporia 的全栈 ML 可观察性解决方案为数据科学家和 ML 工程师提供了可见性、监控和自动化、调查工具和可解释性,以了解模型为何预测它们的行为、它们在生产中的表现如何以及可以改进的地方。

使用 Aporia 的可解释人工智能工具

要了解可解释性功能在 Aporia 中的工作原理,请使用您的电子邮件登录 Aporia。转到演示模型,然后从那里转到数据点仪表板。 接下来单击解释按钮。

网络异常,图片无法展示
|


对于此模型,您可以看到特征如何对模型的预测做出贡献

您还可以获得与主要利益相关者分享的业务说明

网络异常,图片无法展示
|


您还可以通过单击“重新解释”来更改任何特征值,并查看它如何影响预测。这使您可以调试模型以进行特定预测。

网络异常,图片无法展示
|


Aporia 的可解释性功能可让您深入了解模型并更好地理解模型:

  • 数据集中所有特征的预测,即全局可解释性
  • 每个特征对模型预测的单独贡献,即局部可解释性
  • 分段可解释性

随着机器学习模型继续被所有行业采用,并迅速成为组织决策过程的标准关键组成部分,ML 模型是“黑匣子”的想法将被揭穿。 模型预测可以用 Aporia 等可解释的 AI 工具来解释。

Aporia 使 ML 模型可解释,帮助数据科学和 ML 团队更好地理解他们的模型,并以更有效和负责任的方式利用他们的机器学习。


相关文章
|
10天前
|
机器学习/深度学习 数据采集 监控
如何使用机器学习模型来自动化评估数据质量?
如何使用机器学习模型来自动化评估数据质量?
|
6天前
|
机器学习/深度学习 人工智能 算法
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
手写数字识别系统,使用Python作为主要开发语言,基于深度学习TensorFlow框架,搭建卷积神经网络算法。并通过对数据集进行训练,最后得到一个识别精度较高的模型。并基于Flask框架,开发网页端操作平台,实现用户上传一张图片识别其名称。
23 0
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
|
11天前
|
机器学习/深度学习 算法 PyTorch
用Python实现简单机器学习模型:以鸢尾花数据集为例
用Python实现简单机器学习模型:以鸢尾花数据集为例
32 1
|
12天前
|
机器学习/深度学习 人工智能 自然语言处理
机器学习之解释性AI与可解释性机器学习
随着人工智能技术的广泛应用,机器学习模型越来越多地被用于决策过程。然而,这些模型,尤其是深度学习模型,通常被视为“黑箱”,难以理解其背后的决策逻辑。解释性AI(Explainable AI, XAI)和可解释性机器学习(Interpretable Machine Learning, IML)旨在解决这个问题,使模型的决策过程透明、可信。
27 2
|
20天前
|
机器学习/深度学习 数据采集 Python
从零到一:手把手教你完成机器学习项目,从数据预处理到模型部署全攻略
【10月更文挑战第25天】本文通过一个预测房价的案例,详细介绍了从数据预处理到模型部署的完整机器学习项目流程。涵盖数据清洗、特征选择与工程、模型训练与调优、以及使用Flask进行模型部署的步骤,帮助读者掌握机器学习的最佳实践。
58 1
|
23天前
|
机器学习/深度学习 数据采集 监控
如何使用机器学习模型来自动化评估数据质量?
如何使用机器学习模型来自动化评估数据质量?
|
16天前
|
机器学习/深度学习 算法
探索机器学习模型的可解释性
【10月更文挑战第29天】在机器学习领域,一个关键议题是模型的可解释性。本文将通过简单易懂的语言和实例,探讨如何理解和评估机器学习模型的决策过程。我们将从基础概念入手,逐步深入到更复杂的技术手段,旨在为非专业人士提供一扇洞悉机器学习黑箱的窗口。
|
6月前
|
机器学习/深度学习 存储 搜索推荐
利用机器学习算法改善电商推荐系统的效率
电商行业日益竞争激烈,提升用户体验成为关键。本文将探讨如何利用机器学习算法优化电商推荐系统,通过分析用户行为数据和商品信息,实现个性化推荐,从而提高推荐效率和准确性。
239 14
|
6月前
|
机器学习/深度学习 算法 数据可视化
实现机器学习算法时,特征选择是非常重要的一步,你有哪些推荐的方法?
实现机器学习算法时,特征选择是非常重要的一步,你有哪些推荐的方法?
116 1
|
6月前
|
机器学习/深度学习 算法 搜索推荐
Machine Learning机器学习之决策树算法 Decision Tree(附Python代码)
Machine Learning机器学习之决策树算法 Decision Tree(附Python代码)