蚂蚁集团周俊：可信AI在数字经济中的实践与探索（2）-阿里云开发者社区

蚂蚁集团周俊：可信AI在数字经济中的实践与探索（2）

2023-05-15 268

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 蚂蚁集团周俊：可信AI在数字经济中的实践与探索

我们将这样的方法用到了风险感知场景中。比如有时候我们发现某人（如张某某）支付宝有两个账户，他用一个账户频繁给自己的同一账户进行转账。此时，我们的风险感知模型可能会判断这个账户被冒用了。我们希望知道这个风险感知模型为什么会做出这样一个决策。因此，我们会用 COCO 模型生成该风险感知模型的重要决策因子。我们最后可能会得出这样一些因子：比如说相同手机号名下平台会员优先级排序；历史累计登录支付宝次数；近 360 天交易异常指数等。

通过这样的一些重要特征，我们可以分析一个风险感知模型为什么会做出某个决策，从而去验证这个风险感知模型是否合理，它给出的结果是不是可信、可靠。通过这样一个方式，我们把这些重要决策因子给到业务决策，他们会进一步核实实际情况（比如冒用人和被冒用人之间是否有亲属关系），然后再进一步去做人机结合的判断，决定是否冻结账号或报案。这能使我们的业务人员更好地理解风险感知模型决策的逻辑，也能帮助我们的业务专家结合模型解释来帮助决策，控制模型风险。

在这样一个涉及金融账户的决策里，我们其实是非常谨慎的。我们希望更好地控制模型的风险及对用户的打扰，使得风险感知模型能够比较好地保护大家的账户安全，打击犯罪。我们也希望专家理解这个模型，然后把业务的经验反哺到业务模型里面，从而使人机结合达到比较好的效果。

隐私保护机器学习

隐私保护已经在业界发展了很多年，也积累了很多术语，比如匿名化、差分隐私、TEE、多方安全计算等。每一种技术都有自己适用的场景。但我们发现，现在的隐私保护技术很难在模型强度、精度、效率三方面取得比较好的平衡，这三方面目前是一个相互制约的局面。

我们在推荐、营销、广告等工业场景中经常见到大量的数据，同时又非常稀疏。虽然学术圈有很多隐私机器学习方法，但如何将它们应用到大规模稀疏数据上是一个比较大的问题。

为此，我们提出了一种名为 CAESAR（Secure Large Scale Sparse Logistic Regression）[8] 的方法，它会基于混合 MPC 协议，设计出大规模隐私保护 LR 算法。

为什么会设计这样一个混合 MPC 协议？因为我们发现：1）虽然同态加密协议总体来说通信复杂度比较低，但是计算复杂度比较高，而秘密分享协议的通信复杂度虽然较高，但计算复杂度较低；2）机器学习模型中的非线性函数在密态空间下没有办法直接计算，或者说计算性能没有办法满足真实场景的需求，需要高效的表达式，在满足模型精度的前提下降低函数的计算要求，进一步降低通信开销。因此，我们提出了混合 MPC 协议，设计了隐私保护矩阵乘法，再通过泰勒展开去降低非线性运算的复杂度，完成了 LR 的方法。

这里面的要点包括：1）稀疏的矩阵乘法，我们通过混合的 MPC 协议，在合适的地方选择合适的协议，不需要产生 Beaver’s triple，能够更好地提升效率；2）安全、稀疏的矩阵运算，能够同时交叉利用秘密分享和同态加密的技术，最后结合分布式计算，在协调器的指挥下充分利用已经有的集群资源。每个集群本身也是分布式的学习系统，通过这样的方式，我们能够非常好地去进行分布式的运算，然后再通过整体的协调器的协调来完成最终的运算。

通过这种方式，我们发现 CAESAR 的效率达到了业界已有的 SecureML 方法的 130 倍左右。

基于这样的隐私保护技术，我们跟浦发银行做了联合风控的应用。我们在已经授权的数据上进行了尝试，使得模型训练和模型运行阶段均不共享原始数据。与单方面运算相比，联合运算的模式能够更好地提升模型的性能指标（比如将 KS 指标提升 12%~23%）。将模型产出的结果运用到风控场景中，我们能比较好地实现差异化的授信策略，防止潜在高风险贷款，从而将合适的贷款给到合适的人，真正实现防范金融风险的目的。

同时，我们也将这样的技术应用到了联合分析和知识融合等场景 [9]。其核心技术可以概括为：基于云计算和可信隐私计算技术，通过模型梯度和参数安全共享来实现价值的流通，这可以应用于机构内部的运营优化和机构之间安全共享信息。比如我们可以通过隐私保护知识图谱等技术，实现机构之间领域知识融合，提升实体识别准确率，助力保险疾病、证券分析等应用。

对抗机器学习

在对抗机器学习中，我们主要采用的是左右手互搏的方式，即假定我们对模型本身没有太多的了解，基于这样一个假定去攻击我们的系统（黑盒攻击）。我们设计了两种攻击方式（如下图）。通过这样的一些攻击方案以及样本的多样性，我们希望不断提升样本的迁移性和迁移攻击效率，以此来考察业务当中数字链路的安全情况，增强抗打击能力。同时，我们将对抗攻击中产生的样本也放到了机器学习训练的平台里面。我们搭建了一个对抗训练的平台，将前面攻击方法所产生的样本融合到训练机制中，使得决策边界从红线变到蓝线，相应来说会更平滑，更平滑意味着通用性会变得更好，能够提升模型的鲁棒性，甚至在某些情况下能够改善样本不均衡的问题，从而带来业务精度的提升 [10] 。

前面我们总结了很多可信 AI 在数字经济当中的落地和实践，从包容性到可解释隐私保护到对抗学习。我们也发现，企业 AI 的每一小步的应用都意味着我们离智能未来的梦想更近了一点。

在实践和探索可信 AI 的过程中，我们也发现，业界虽然有一些可信 AI 的落地案例和研究，但这个方向依然任重而道远。虽然已经有不少的突破，但目前大部分的突破还聚集在点状的场景上面。

我们也坚信，可信 AI 技术能够持续提升人工智能技术在金融场景中的透明度、友好性，会使得决策更智能。由于目前的 AI 还处于高速发展的阶段，我们今天分享的实践和落地可能离最终的可信 AI 还有些距离，我们也希望通过今天分享的我们在工业界中的研究、实践、踩坑经验和不成熟的尝试，能够让更多的同行去深入思考，能够真真正正地做到通过可信 AI 抵御数字时代的风险，提升科技包容度。

参考资料：

[1] Zhang D, Huang X, Liu Z, et al. AGL: a scalable system for industrial-purpose graph machine learning[J]. Proceedings of the VLDB Endowment, 2020, 13(12): 3125-3137. [2] Yang S, Zhang Z, Zhou J, et al. Financial Risk Analysis for SMEs with Graph-based Supply Chain Mining[C]//IJCAI. 2020: 4661-4667 [3] Yang S, Hu B, Zhang Z, et al. Inductive Link Prediction with Interactive Structure Learning on Attributed Graph[C]//Joint European Conference on Machine Learning and Knowledge Discovery in Databases. Springer, Cham, 2021: 383-398. [4] Yu L, Pei S, Zhang C, et al. Self-supervised smoothing graph neural networks[C]. AAAI 2022, accepted. [5] Bo D, Hu B B, Wang X, et al. Regularizing Graph Neural Networks via Consistency-Diversity Graph Augmentations[C]. AAAI 2022, accepted. [6] Zhang M, Wang X, Zhu M, et al. Robust Heterogeneous Graph Neural Networks against Adversarial Attacks[C]. AAAI 2022, accepted. [7] Fang J P, Zhou J, Cui Q, et al. Interpreting Model Predictions with Constrained Perturbation and Counterfactual Instances[J]. International Journal of Pattern Recognition and Artificial Intelligence, 2021: 2251001. [8] Chen C, Zhou J, Wang L, et al. When homomorphic encryption marries secret sharing: Secure large-scale sparse logistic regression and applications in risk control[C]//Proceedings of the 27th ACM SIGKDD Conference on Knowledge Discovery & Data Mining. 2021: 2652-2662. [9] Chen C, Wu B, Wang L, et al. Nebula: A Scalable Privacy-Preserving Machine Learning System in Ant Financial[C]//Proceedings of the 29th ACM International Conference on Information & Knowledge Management. 2020: 3369-3372. [10] Huan Z, Wang Y, Zhang X, et al. Data-free adversarial perturbations for practical black-box attack[C]//Pacific-Asia conference on knowledge discovery and data mining. Springer, Cham, 2020: 127-138.

蚂蚁集团周俊：可信AI在数字经济中的实践与探索（2）

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

蚂蚁集团周俊：可信AI在数字经济中的实践与探索（2）

热门文章

最新文章

相关课程

相关电子书

相关实验场景