腾讯AI Lab联合ETH提出合作博弈新范式，为可解释性等机器学习估值问题提供新方法（2）-阿里云开发者社区

腾讯AI Lab联合ETH提出合作博弈新范式，为可解释性等机器学习估值问题提供新方法（2）

2023-05-16 210

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 腾讯AI Lab联合ETH提出合作博弈新范式，为可解释性等机器学习估值问题提供新方法

五、实验结果
在实验过程中，我们试图理解以下两点：1）与其他估值方法相比，提出的变分估值方法是否具有更低的解耦误差？2)与经典估值标准相比，我们提出的变分指数能否获得好处？

1. 数据估值实验
我们按照 Ghorbani & Zou (2019)的设置，复用 https://github.com/amiratag/DataShapley 的代码。我们进行数据去除：根据不同标准返回的估值对训练样本进行排序，然后按顺序去除样本，以检查测试准确率下降了多少。直观地说，最好的估值算法会导致性能下降最快。

图 2 中结果显示：在某些情况下，变分指数达到最快的下降率。它总是达到最低的解耦误差（如每个图中的图例所示）。有时变分指数和 Banzhaf 表现出相似的性能，我们估计这是因为 Banzhaf 值是变分指数的一步近似值，并且对于所考虑的具体问题，在一步不动点迭代之后，解的排名不会改变。

2. 特征估值 / 归因（feature attribution）实验
我们沿用 Lundberg & Lee ( 2017)的设置，并使用 MIT 许可证重用 https://github.com/slundberg/shap 的代码。我们在 Adult 数据集上训练分类器，该数据集根据人口普查数据预测成人的年收入是否超过 5 万美元。

Feature removal results: 该实验遵循与数据去除实验类似的方式：我们根据返回标准定义的顺序逐一去除特征，然后观察预测概率的变化。Figure 3 报告了三种方法的行为。第一行显示来自 xgboost 分类器的结果（准确度：0.893），第二行显示逻辑回归分类器（准确度：0.842），第三行是多层感知器（准确度：0.861）。对于概率下降的结果，变分指数通常引起最快的下降，它总能达到最小的解耦误差，正如其平均场性质所预期的那样。
从瀑布图可以看出这三个标准确实产生了不同的特征排名。以第一行为例：所有标准都将 “Capital Loss” 和“Relationship”作为前两个特征。然而，剩下的特征有不同的排名：变分指数和 Banzhaf 表示 “Marital Status” 应该排在第三位，而 Shapley 则排在第四位。很难说哪个排名是最好的, 因为：1）没有确定特征真实排名的黄金标准；2) 即使存在一些 “完美模型” 的基本事实排名，这里训练的 xgboost 模型可能无法复制它，因为它可能与 “完美模型” 不一致。

六、结论和未来工作
本文介绍了一种基于能量学习的合作博弈方法，以解决机器学习中的若干估值问题。未来在以下方向非常值得去探索： 1）选择温度 T。温度控制公平性水平，因为当时，所有参与者具有同等重要性，当时，参与者具有 0 或 1 重要性。2）给定概率合作博弈的设定，自然可以在玩家之上添加先验，以便编码更多领域知识。3）在基于能量学习的合作博弈框架中探索一群玩家的互动非常有意义，这有助于研究导致多个玩家联盟之间的 “互动” 指数。

部分参考文献 [Ghorbani & Zou， 2019 ] A. Ghorbani and J. Zou. Data shapley: Equitable valuation of data for machine learning. In International Conference on Machine Learning, pages 2242–2251. PMLR, 2019.[Shapley, 1953] L. S. Shapley. A value for n-person games. Contributions to the Theory of Games, 2(28):307–317, 1953.[Penrose, 1946] L. S. Penrose. The elementary statistics of majority voting. Journal of the Royal Statistical Society, 109(1):53–57, 1946.[Banzhaf III, 1964] J. F. Banzhaf III. Weighted voting doesn’t work: A mathematical analysis. Rutgers L. Rev., 19:317, 1964.[Gutmann and Hyvärinen, 2010] M. Gutmann and A. Hyvärinen. Noise-contrastive estimation: A new estimation principle forunnormalized statistical models. In Proceedings of the Thirteenth International Conference onArtificial Intelligence and Statistics, pages 297–304. JMLRWorkshop and Conference Proceedings, 2010.[Hyvärinen, 2005] A. Hyvärinen. Estimation of non-normalized statistical models by score matching. Journal ofMachine Learning Research, 6(4), 2005.[Minka, 2001] T. P. Minka. Expectation propagation for approximate bayesian inference. In Proceedings of the Seventeenth conference on Uncertainty in artificial intelligence, pages 362–369, 2001.