腾讯AI Lab联合ETH提出合作博弈新范式,为可解释性等机器学习估值问题提供新方法(2)

简介: 腾讯AI Lab联合ETH提出合作博弈新范式,为可解释性等机器学习估值问题提供新方法

五、实验结果
在实验过程中,我们试图理解以下两点:1)与其他估值方法相比,提出的变分估值方法是否具有更低的解耦误差?2)与经典估值标准相比,我们提出的变分指数能否获得好处?

1. 数据估值实验
我们按照 Ghorbani & Zou (2019)的设置,复用 https://github.com/amiratag/DataShapley 的代码。我们进行数据去除:根据不同标准返回的估值对训练样本进行排序,然后按顺序去除样本,以检查测试准确率下降了多少。直观地说,最好的估值算法会导致性能下降最快。

图 2 中结果显示:在某些情况下,变分指数达到最快的下降率。它总是达到最低的解耦误差(如每个图中的图例所示)。有时变分指数和 Banzhaf 表现出相似的性能, 我们估计这是因为 Banzhaf 值是变分指数的一步近似值,并且对于所考虑的具体问题,在一步不动点迭代之后,解的排名不会改变。


2. 特征估值 / 归因(feature attribution)实验
我们沿用 Lundberg & Lee ( 2017)的设置,并使用 MIT 许可证重用 https://github.com/slundberg/shap 的代码。我们在 Adult 数据集 上训练分类器,该数据集根据人口普查数据预测成人的年收入是否超过 5 万美元。

Feature removal results: 该实验遵循与数据去除实验类似的方式:我们根据返回标准定义的顺序逐一去除特征,然后观察预测概率的变化。Figure 3 报告了三种方法的行为。第一行显示来自 xgboost 分类器的结果(准确度:0.893),第二行显示逻辑回归分类器(准确度:0.842),第三行是多层感知器(准确度:0.861)。对于概率下降的结果,变分指数通常引起最快的下降,它总能达到最小的解耦误差,正如其平均场性质所预期的那样。
从瀑布图可以看出这三个标准确实产生了不同的特征排名。以第一行为例:所有标准都将 “Capital Loss” 和“Relationship”作为前两个特征。然而,剩下的特征有不同的排名:变分指数和 Banzhaf 表示 “Marital Status” 应该排在第三位,而 Shapley 则排在第四位。很难说哪个排名是最好的, 因为:1)没有确定特征真实排名的黄金标准;2) 即使存在一些 “完美模型” 的基本事实排名,这里训练的 xgboost 模型可能无法复制它,因为它可能与 “完美模型” 不一致。


六、结论和未来工作
本文介绍了一种基于能量学习的合作博弈方法,以解决机器学习中的若干估值问题。未来在以下方向非常值得去探索:  1)选择温度 T。温度控制公平性水平,因为当时,所有参与者具有同等重要性,当时,参与者具有 0 或 1 重要性。2)给定概率合作博弈的设定,自然可以在玩家之上添加先验,以便编码更多领域知识。3)在基于能量学习的合作博弈框架中探索一群玩家的互动非常有意义,这有助于研究导致多个玩家联盟之间的 “互动” 指数。

部分参考文献 [Ghorbani & Zou, 2019 ] A. Ghorbani and J. Zou. Data shapley: Equitable valuation of data for machine learning. In International Conference on Machine Learning, pages 2242–2251. PMLR, 2019.[Shapley, 1953] L. S. Shapley. A value for n-person games. Contributions to the Theory of Games, 2(28):307–317, 1953.[Penrose, 1946] L. S. Penrose. The elementary statistics of majority voting. Journal of the Royal Statistical Society, 109(1):53–57, 1946.[Banzhaf III, 1964] J. F. Banzhaf III. Weighted voting doesn’t work: A mathematical analysis. Rutgers L. Rev., 19:317, 1964.[Gutmann and Hyvärinen, 2010] M. Gutmann and A. Hyvärinen. Noise-contrastive estimation: A new estimation principle forunnormalized statistical models. In Proceedings of the Thirteenth International Conference onArtificial Intelligence and Statistics, pages 297–304. JMLRWorkshop and Conference Proceedings, 2010.[Hyvärinen, 2005] A. Hyvärinen. Estimation of non-normalized statistical models by score matching. Journal ofMachine Learning Research, 6(4), 2005.[Minka, 2001] T. P. Minka. Expectation propagation for approximate bayesian inference. In Proceedings of the Seventeenth conference on Uncertainty in artificial intelligence, pages 362–369, 2001.

相关文章
|
4月前
|
云安全 人工智能 安全
|
4月前
|
人工智能 JavaScript Devops
云效 MCP Server:AI 驱动的研发协作新范式
云效MCP Server是阿里云云效平台推出的模型上下文协议(Model Context Protocol)标准化接口系统,作为AI助手与DevOps平台的核心桥梁。通过该协议,AI大模型可无缝集成云效DevOps平台,直接访问和操作包括项目管理、代码仓库、工作项等关键研发资产,实现智能化全生命周期管理。其功能涵盖代码仓库管理、代码评审、项目管理和组织管理等多个方面,支持如创建分支、合并请求、查询工作项等具体操作。用户可通过通义灵码内置的MCP市场安装云效MCP服务,并配置个人访问令牌完成集成。实际场景中,AI助手可自动分析需求、生成代码、创建功能分支并提交合并请求,极大提升研发效率。
|
6月前
|
机器学习/深度学习 人工智能 数据可视化
生成AI的两大范式:扩散模型与Flow Matching的理论基础与技术比较
本文系统对比了扩散模型与Flow Matching两种生成模型技术。扩散模型通过逐步添加噪声再逆转过程生成数据,类比为沙堡的侵蚀与重建;Flow Matching构建分布间连续路径的速度场,如同矢量导航系统。两者在数学原理、训练动态及应用上各有优劣:扩散模型适合复杂数据,Flow Matching采样效率更高。文章结合实例解析两者的差异与联系,并探讨其在图像、音频等领域的实际应用,为生成建模提供了全面视角。
784 1
生成AI的两大范式:扩散模型与Flow Matching的理论基础与技术比较
|
5月前
|
人工智能 自然语言处理 数据挖掘
DeepSeek:重构办公效率的AI新范式
DeepSeek作为新一代AI办公平台,通过语义理解、流程重构和决策支持三大引擎,重新定义办公效率。它以深度语义模型实现合同审核等任务的高效精准,用智能流程挖掘优化业务链条,并融合行业知识图谱辅助决策。数据显示,DeepSeek可大幅压缩时间成本、提升质量并带来显著ROI。其从“人找信息”到“信息找人”的范式转变,推动企业迈向认知联网与群体智能时代,开启办公效率的指数级跃迁。这不仅是工具革新,更是生产力模式的根本转型。
200 0
|
5月前
|
人工智能 Cloud Native Serverless
从理论到落地:MCP 实战解锁 AI 应用架构新范式
本文旨在从 MCP 的技术原理、降低 MCP Server 构建复杂度、提升 Server 运行稳定性等方面出发,分享我们的一些实践心得。
2424 102
|
8月前
|
存储 人工智能 Cloud Native
科研+ AI :深势科技,全新科研范式引领者
深势科技作为AI for Science的引领者,专注于微观粒子行为研究,推动材料科学和生命科学领域的创新。通过AI技术,深势科技加速了药物研发、纳米药物微流控等技术的发展,显著提升了计算性能和实验效率。与阿里云合作,利用其云原生计算和存储服务,深势科技实现了资源弹性调度和高效管理,大幅提升了研发效率,服务于超过50万科研用户,并计划建设AI for Science超级实验室,推动更多科技创新。
376 0
|
8月前
|
存储 人工智能 大数据
AI开发新范式,PAI模型构建平台升级发布
本次分享由阿里云智能集团产品专家高慧玲主讲,聚焦AI开发新范式及PAI模型构建平台的升级。分享分为四个部分,围绕“人人可用”和“面向生产”两大核心理念展开。通过降低AI工程化门槛、提供一站式全链路服务,PAI平台致力于帮助企业和开发者更高效地实现AI应用。案例展示中,介绍了多模态模型微调在文旅场景的应用,展示了如何快速复现并利用AI解决实际问题。最终目标是让AI技术更普及,赋能各行业,推动社会进步。
|
5月前
|
人工智能 供应链 Cloud Native
中国AI编码工具崛起:技术突围、生态重构与开发者新范式
中国AI编码工具如通义灵码、百度Comate等,正从西方产品的主导中突围。通过大模型精调、中文友好型理解及云原生赋能,构建差异化优势。这些工具不仅提升效率,还推动中国软件产业从使用者向标准制定者转变。然而,技术原创性、生态碎片化和开发者信任危机仍是挑战。未来目标不是取代现有工具,而是定义适合中国开发者的智能编码新范式。
273 24
|
6月前
|
机器学习/深度学习 人工智能 算法
模型即产品:万字详解RL驱动的AI Agent模型如何巨震AI行业范式
未来 AI 智能体的发展方向还得是模型本身,而不是工作流(Work Flow)。像 Manus 这样基于「预先编排好的提示词与工具路径」构成的工作流智能体,短期或许表现不错,但长期必然遇到瓶颈。这种「提示驱动」的方式无法扩展,也无法真正处理那些需要长期规划、多步骤推理的复杂任务。下一代真正的LLM智能体,则是通过「强化学习(RL)与推理(Reasoning)的结合」来实现的。
406 10
模型即产品:万字详解RL驱动的AI Agent模型如何巨震AI行业范式
|
5月前
|
人工智能 自然语言处理 安全

热门文章

最新文章