击穿黑盒模型！MIT华人博士发布ExSum，模型解释新神器｜NAACL 2022

2023-05-08 164

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

模型在线服务 PAI-EAS，A10/V100等 500元 1个月

交互式建模 PAI-DSW，5000CU*H 3个月

模型训练 PAI-DLC，5000CU*H 3个月

简介： 击穿黑盒模型！MIT华人博士发布ExSum，模型解释新神器｜NAACL 2022

【新智元导读】黑盒模型解释起来让人头大，往往只能在论文里放几个例子来强行解释一波。最近MIT的一位华人博士提出了一个新框架ExSum，让模型解释这件事变得更数学了！

人工智能近些年的快速发展主要归功于神经网络模型，但随着模型越做越大、越来越复杂，研究人员渐渐也无法完全理解模型究竟是如何做出预测的，「黑匣子」也就变得越来越黑。

能否理解黑盒模型的运行机制对于模型部署来说至关重要，关乎模型的可靠性和易用性，所以也有研究人员正在开发模型的可解释方法。

为了尝试理解模型，之前大多采用测试样例的方法来描述和解释模型的决策过程，比如在情感分析任务中，对电影评论数据高亮显示模型认为正向还是负向的关键词，也叫「局部解释」。

但对于复杂一些的任务，人类可能就没办法轻易理解了，甚至可能会产生误解，那这种解释方法就毫无用处。

最近，麻省理工学院的研究人员提出了一个全新的数学框架ExSum，可以形式化地量化和评估机器学习模型的可解释性的可理解度，论文已被NAACL 2022接收。

论文链接：https://arxiv.org/pdf/2205.00130.pdf

说得通俗点，就是看你「解释模型的规则」适不适用于更多的数据。

局部解释的一大弊端就是没法判断规则是不是可以扩展到其他测试样例上，比如高亮了「精彩」作为电影评论的正向词，那是不是意味着「不」之类的否定词就对测试没影响了？

使用ExSum，用户可以用三个指标来查看规则是否成立：覆盖率、有效性和清晰度。

覆盖率衡量规则在整个数据集中的适用范围；有效性则显示有多少样例使得规则成立；清晰度描述了规则的精确程度：一个有效的规则可能也很通用，但对于理解模型来说则没有用处。

文章的第一作者Yilun Zhou是麻省理工学院电子工程和计算机科学系（EECS）的五年级博士生，导师为Julie Shah教授。目前的研究方向是帮助人类更好地理解那些在世界上做出重要决策的模型，主要问题包括如何确保一个黑盒模型的正确工作？如何对预期的和更重要的非预期的模型行为有一个全面的理解？人类对这种复杂推理过程的理解有什么局限性？

为了回答这些问题，他开发了可解释机器学习的模型、算法和评估，并将其应用于不同的领域，包括计算机视觉（CV）、自然语言处理（NLP）和机器人学。