Rich Caruana:压缩深度神经网络模型让你兼得可解释性与准确性!

简介:

微软研究院首席研究员Rich Caruana在他数十年的职业生涯中花了很多精力来探索这个问题,在这个访谈中,他为我们分享了一个更精简、更可解释的“压缩”模型,使“黑匣子”般的机器学习过程更加透明。本文是Rich Caruana采访内容的文字精简版。

4f064239b68d04e5b5d8d350c5571d7ed0429b26

微软首席研究员Rich Caruana博士

在机器学习领域,长久以来存在一个难以取舍的问题——模型的准确性与可解释性像“鱼与熊掌”般不可兼得。简单如线性回归、逻辑回归,过程清晰明确,但无法用于分析复杂的问题;复杂如神经网络,机器学习过程和预测结果的准确来源于它繁复的结构。在今天,随着神经网络模型的不断发展,为了得到更精确的结果,这个模型越来越大,从初始的三、五层,变成五十、上百层,加上千万个样本、数亿个权重,这使人们更难理解机器做出的预测,模型的运行速度也更缓慢。

线性回归、逻辑回归这些简单又准确的模型,能够很好地解决一些基础的问题。但是随着数据驱动时代的来临,庞大的数据量要求我们使用更复杂的模型去囊括数据呈现的各种情况。但复杂的机器学习模型就像一个“黑匣子”,我们将数据送进去,它把结果输出来,那盒子中发生了什么呢?

我认为有两个原因,使机器学习的过程像“黑匣子”般难以捉摸。

d47e62d2b349aca45e42305ed6714efbe5ed61d9第一,是复杂模型本身的特性。 三四十年前的人工智能(例如专家系统)完全是由人们手动编写的,我们很容易理解背后的工作机制,而现在的人工智能大都基于机器学习和大数据。面对海量的数据,人们难以手动为机器创造一个准确的规则。通常的做法是将数据集交给一个数据引擎,让它找到与目标结果相关的规律,学习这个规律,捕捉数据集中的所有规律,最后给出预测结果。这个过程中我们无法确信机器找到的规律是否准确,机器也不会告诉我们它的所作所为,这使我们难以透彻地理解整个过程。
d47e62d2b349aca45e42305ed6714efbe5ed61d9第二,是模型的所有权归属问题,模型的所有者通常希望保护自己的模型。 比如,某个公司开发的供法院付费使用的评估罪犯再次犯罪概率的模型,根据法律规定,这个模型的所有权是属于这个公司,而法院也不希望有人通过研究该模型的工作机制从而找到钻空子的机会。所以类似于这种模型是对其他人是严格保密的。

在读研究生时,我的朋友在一个肺炎数据集上训练模型时,得出了“哮喘病史能减少患者因肺炎死亡的几率”的荒谬结论,事实上,哮喘病是肺炎的一个高危相关因素,但是数据显示,哮喘病史的患者肺炎死亡率仅约为无哮喘病史患者的50%,这是因为哮喘病患者会较早注意到自己的发病症状,及时就医,能够获得高质量的、更加积极的治疗。尽管在模型中修复这个小问题并不难,但这段经历给了我一个警告:如果对机器学习模型的内部运行机制缺乏理解,模型的预测结果可能和现实情况存在很大的偏差。

意识到这一点后,我花了很多精力试图解决这个问题。90年代初,麦迪逊大学的一名研究生做了一件有趣的事,他训练了一个决策树模型来模拟神经网络,使它和神经网络模型的尽可能接近,以了解神经网络模型的运行机制。15年前当我在康奈尔大学时,我们也采取了这个用简单模型模拟复杂神经网络的方法,用一个小而快的模型成功模拟了复杂模型所做出的预测,而且速度加快了上千倍。

过去七年,我们在微软开发了一个更简单、可解释的模型,我们叫它“压缩模型”或“蒸馏模型”。我们先训练出庞大、精确的、上百层的深度神经网络,再将深度神经网络压缩成较浅的神经网络,保持它的准确率的同时提高运行效率。

同时,为了避免机器学习产生类似“哮喘病史能减少患者因肺炎死亡的几率”的结论,我们借鉴了由80年代后期统计学家提出的GAMs模型(Generalized Additive Models),在原本简单的GAMs模型基础上扩充了机器学习的方法,使它能更准确地拟合数据集的真实状况,也更具可解释性。

最后我想说,在人工智能的早期,行业里流传着这样一句话:“你应该从事最困扰你的问题,因为这是突破瓶颈的绝佳机会,否则它总有一天会继续困扰你。”在研究领域,我发现最困扰我的问题,往往就是最好的下一个研究方向。因此我也鼓励大家去探索最令人困扰、最具有挑战性的任务,即使不确定能否获得回报,它也很值得。


原文发布时间为:2018-06-18

本文来自云栖社区合作伙伴“数据派THU”,了解相关信息可以关注“数据派THU”。

相关文章
|
3天前
|
网络协议 安全 网络安全
探索网络模型与协议:从OSI到HTTPs的原理解析
OSI七层网络模型和TCP/IP四层模型是理解和设计计算机网络的框架。OSI模型包括物理层、数据链路层、网络层、传输层、会话层、表示层和应用层,而TCP/IP模型则简化为链路层、网络层、传输层和 HTTPS协议基于HTTP并通过TLS/SSL加密数据,确保安全传输。其连接过程涉及TCP三次握手、SSL证书验证、对称密钥交换等步骤,以保障通信的安全性和完整性。数字信封技术使用非对称加密和数字证书确保数据的机密性和身份认证。 浏览器通过Https访问网站的过程包括输入网址、DNS解析、建立TCP连接、发送HTTPS请求、接收响应、验证证书和解析网页内容等步骤,确保用户与服务器之间的安全通信。
26 1
|
8天前
|
监控 安全 BI
什么是零信任模型?如何实施以保证网络安全?
随着数字化转型,网络边界不断变化,组织需采用新的安全方法。零信任基于“永不信任,永远验证”原则,强调无论内外部,任何用户、设备或网络都不可信任。该模型包括微分段、多因素身份验证、单点登录、最小特权原则、持续监控和审核用户活动、监控设备等核心准则,以实现强大的网络安全态势。
|
27天前
|
机器学习/深度学习 自然语言处理 数据可视化
【由浅到深】从神经网络原理、Transformer模型演进、到代码工程实现
阅读这个文章可能的收获:理解AI、看懂模型和代码、能够自己搭建模型用于实际任务。
107 11
|
2月前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于BP神经网络的苦瓜生长含水量预测模型matlab仿真
本项目展示了基于BP神经网络的苦瓜生长含水量预测模型,通过温度(T)、风速(v)、模型厚度(h)等输入特征,预测苦瓜的含水量。采用Matlab2022a开发,核心代码附带中文注释及操作视频。模型利用BP神经网络的非线性映射能力,对试验数据进行训练,实现对未知样本含水量变化规律的预测,为干燥过程的理论研究提供支持。
|
1月前
|
存储 网络协议 安全
30 道初级网络工程师面试题,涵盖 OSI 模型、TCP/IP 协议栈、IP 地址、子网掩码、VLAN、STP、DHCP、DNS、防火墙、NAT、VPN 等基础知识和技术,帮助小白们充分准备面试,顺利踏入职场
本文精选了 30 道初级网络工程师面试题,涵盖 OSI 模型、TCP/IP 协议栈、IP 地址、子网掩码、VLAN、STP、DHCP、DNS、防火墙、NAT、VPN 等基础知识和技术,帮助小白们充分准备面试,顺利踏入职场。
87 2
|
1月前
|
运维 网络协议 算法
7 层 OSI 参考模型:详解网络通信的层次结构
7 层 OSI 参考模型:详解网络通信的层次结构
170 1
|
2月前
|
网络协议 前端开发 Java
网络协议与IO模型
网络协议与IO模型
138 4
网络协议与IO模型
|
2月前
|
机器学习/深度学习 网络架构 计算机视觉
目标检测笔记(一):不同模型的网络架构介绍和代码
这篇文章介绍了ShuffleNetV2网络架构及其代码实现,包括模型结构、代码细节和不同版本的模型。ShuffleNetV2是一个高效的卷积神经网络,适用于深度学习中的目标检测任务。
109 1
目标检测笔记(一):不同模型的网络架构介绍和代码
|
1月前
|
网络协议 算法 网络性能优化
计算机网络常见面试题(一):TCP/IP五层模型、TCP三次握手、四次挥手,TCP传输可靠性保障、ARQ协议
计算机网络常见面试题(一):TCP/IP五层模型、应用层常见的协议、TCP与UDP的区别,TCP三次握手、四次挥手,TCP传输可靠性保障、ARQ协议、ARP协议
|
1月前
|
机器学习/深度学习 人工智能 算法
【车辆车型识别】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+算法模型
车辆车型识别,使用Python作为主要编程语言,通过收集多种车辆车型图像数据集,然后基于TensorFlow搭建卷积网络算法模型,并对数据集进行训练,最后得到一个识别精度较高的模型文件。再基于Django搭建web网页端操作界面,实现用户上传一张车辆图片识别其类型。
87 0
【车辆车型识别】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+算法模型

热门文章

最新文章