蚂蚁集团周俊:可信AI在数字经济中的实践与探索(2)

简介: 蚂蚁集团周俊:可信AI在数字经济中的实践与探索

我们将这样的方法用到了风险感知场景中。比如有时候我们发现某人(如张某某)支付宝有两个账户,他用一个账户频繁给自己的同一账户进行转账。此时,我们的风险感知模型可能会判断这个账户被冒用了。我们希望知道这个风险感知模型为什么会做出这样一个决策。因此,我们会用 COCO 模型生成该风险感知模型的重要决策因子。我们最后可能会得出这样一些因子:比如说相同手机号名下平台会员优先级排序;历史累计登录支付宝次数;近 360 天交易异常指数等。

通过这样的一些重要特征,我们可以分析一个风险感知模型为什么会做出某个决策,从而去验证这个风险感知模型是否合理,它给出的结果是不是可信、可靠。通过这样一个方式,我们把这些重要决策因子给到业务决策,他们会进一步核实实际情况(比如冒用人和被冒用人之间是否有亲属关系),然后再进一步去做人机结合的判断,决定是否冻结账号或报案。这能使我们的业务人员更好地理解风险感知模型决策的逻辑,也能帮助我们的业务专家结合模型解释来帮助决策,控制模型风险。


在这样一个涉及金融账户的决策里,我们其实是非常谨慎的。我们希望更好地控制模型的风险及对用户的打扰,使得风险感知模型能够比较好地保护大家的账户安全,打击犯罪。我们也希望专家理解这个模型,然后把业务的经验反哺到业务模型里面,从而使人机结合达到比较好的效果。

隐私保护机器学习

隐私保护已经在业界发展了很多年,也积累了很多术语,比如匿名化、差分隐私、TEE、多方安全计算等。每一种技术都有自己适用的场景。但我们发现,现在的隐私保护技术很难在模型强度、精度、效率三方面取得比较好的平衡,这三方面目前是一个相互制约的局面。


我们在推荐、营销、广告等工业场景中经常见到大量的数据,同时又非常稀疏。虽然学术圈有很多隐私机器学习方法,但如何将它们应用到大规模稀疏数据上是一个比较大的问题。

为此,我们提出了一种名为 CAESAR(Secure Large Scale Sparse Logistic Regression)[8] 的方法,它会基于混合 MPC 协议,设计出大规模隐私保护 LR 算法。


为什么会设计这样一个混合 MPC 协议?因为我们发现:1)虽然同态加密协议总体来说通信复杂度比较低,但是计算复杂度比较高,而秘密分享协议的通信复杂度虽然较高,但计算复杂度较低;2)机器学习模型中的非线性函数在密态空间下没有办法直接计算,或者说计算性能没有办法满足真实场景的需求,需要高效的表达式,在满足模型精度的前提下降低函数的计算要求 ,进一步降低通信开销。因此,我们提出了混合 MPC 协议,设计了隐私保护矩阵乘法,再通过泰勒展开去降低非线性运算的复杂度,完成了 LR 的方法。

这里面的要点包括:1)稀疏的矩阵乘法,我们通过混合的 MPC 协议,在合适的地方选择合适的协议,不需要产生 Beaver’s triple,能够更好地提升效率;2)安全、稀疏的矩阵运算,能够同时交叉利用秘密分享和同态加密的技术,最后结合分布式计算,在协调器的指挥下充分利用已经有的集群资源。每个集群本身也是分布式的学习系统,通过这样的方式,我们能够非常好地去进行分布式的运算,然后再通过整体的协调器的协调来完成最终的运算。



通过这种方式,我们发现 CAESAR 的效率达到了业界已有的 SecureML 方法的 130 倍左右。


基于这样的隐私保护技术,我们跟浦发银行做了联合风控的应用。我们在已经授权的数据上进行了尝试,使得模型训练和模型运行阶段均不共享原始数据。与单方面运算相比,联合运算的模式能够更好地提升模型的性能指标(比如将 KS 指标提升 12%~23%)。将模型产出的结果运用到风控场景中,我们能比较好地实现差异化的授信策略,防止潜在高风险贷款,从而将合适的贷款给到合适的人,真正实现防范金融风险的目的。


同时,我们也将这样的技术应用到了联合分析和知识融合等场景 [9]。其核心技术可以概括为:基于云计算和可信隐私计算技术,通过模型梯度和参数安全共享来实现价值的流通,这可以应用于机构内部的运营优化和机构之间安全共享信息。比如我们可以通过隐私保护知识图谱等技术,实现机构之间领域知识融合,提升实体识别准确率,助力保险疾病、证券分析等应用。


对抗机器学习

在对抗机器学习中,我们主要采用的是左右手互搏的方式,即假定我们对模型本身没有太多的了解,基于这样一个假定去攻击我们的系统(黑盒攻击)。我们设计了两种攻击方式(如下图)。通过这样的一些攻击方案以及样本的多样性,我们希望不断提升样本的迁移性和迁移攻击效率,以此来考察业务当中数字链路的安全情况,增强抗打击能力。同时,我们将对抗攻击中产生的样本也放到了机器学习训练的平台里面。我们搭建了一个对抗训练的平台,将前面攻击方法所产生的样本融合到训练机制中,使得决策边界从红线变到蓝线,相应来说会更平滑,更平滑意味着通用性会变得更好,能够提升模型的鲁棒性,甚至在某些情况下能够改善样本不均衡的问题,从而带来业务精度的提升 [10] 。


前面我们总结了很多可信 AI 在数字经济当中的落地和实践,从包容性到可解释隐私保护到对抗学习。我们也发现,企业 AI 的每一小步的应用都意味着我们离智能未来的梦想更近了一点。

在实践和探索可信 AI 的过程中,我们也发现,业界虽然有一些可信 AI 的落地案例和研究,但这个方向依然任重而道远。虽然已经有不少的突破,但目前大部分的突破还聚集在点状的场景上面。

我们也坚信,可信 AI 技术能够持续提升人工智能技术在金融场景中的透明度、友好性,会使得决策更智能。由于目前的 AI 还处于高速发展的阶段,我们今天分享的实践和落地可能离最终的可信 AI 还有些距离,我们也希望通过今天分享的我们在工业界中的研究、实践、踩坑经验和不成熟的尝试,能够让更多的同行去深入思考,能够真真正正地做到通过可信 AI 抵御数字时代的风险,提升科技包容度。


参考资料:

[1] Zhang D, Huang X, Liu Z, et al. AGL: a scalable system for industrial-purpose graph machine learning[J]. Proceedings of the VLDB Endowment, 2020, 13(12): 3125-3137. [2] Yang S, Zhang Z, Zhou J, et al. Financial Risk Analysis for SMEs with Graph-based Supply Chain Mining[C]//IJCAI. 2020: 4661-4667 [3] Yang S, Hu B, Zhang Z, et al. Inductive Link Prediction with Interactive Structure Learning on Attributed Graph[C]//Joint European Conference on Machine Learning and Knowledge Discovery in Databases. Springer, Cham, 2021: 383-398. [4] Yu L, Pei S, Zhang C, et al. Self-supervised smoothing graph neural networks[C]. AAAI 2022, accepted. [5] Bo D, Hu B B, Wang X, et al. Regularizing Graph Neural Networks via Consistency-Diversity Graph Augmentations[C]. AAAI 2022, accepted. [6] Zhang M, Wang X, Zhu M, et al. Robust Heterogeneous Graph Neural Networks against Adversarial Attacks[C]. AAAI 2022, accepted. [7] Fang J P, Zhou J, Cui Q, et al. Interpreting Model Predictions with Constrained Perturbation and Counterfactual Instances[J]. International Journal of Pattern Recognition and Artificial Intelligence, 2021: 2251001. [8] Chen C, Zhou J, Wang L, et al. When homomorphic encryption marries secret sharing: Secure large-scale sparse logistic regression and applications in risk control[C]//Proceedings of the 27th ACM SIGKDD Conference on Knowledge Discovery & Data Mining. 2021: 2652-2662. [9] Chen C, Wu B, Wang L, et al. Nebula: A Scalable Privacy-Preserving Machine Learning System in Ant Financial[C]//Proceedings of the 29th ACM International Conference on Information & Knowledge Management. 2020: 3369-3372. [10] Huan Z, Wang Y, Zhang X, et al. Data-free adversarial perturbations for practical black-box attack[C]//Pacific-Asia conference on knowledge discovery and data mining. Springer, Cham, 2020: 127-138.

相关文章
|
25天前
|
人工智能 Serverless
AI 大模型助力客户对话分析 ——实践操作
参与《AI大模型助力客户对话分析》项目,基于阿里云社区操作路书,从架构设计到部署测试,逐步学习并应用大模型进行AI质检。过程中虽有控制台跳转等小挑战,但整体体验流畅,展示了AI技术的便捷与魅力,以及阿里云平台的先进性和社区支持。最终实现的AI质检功能,能够有效提升企业客户服务质量与效率。
48 0
|
1月前
|
机器学习/深度学习 数据采集 人工智能
AI与机器学习:从理论到实践
【10月更文挑战第2天】本文将深入探讨AI和机器学习的基本概念,以及它们如何从理论转化为实际的应用。我们将通过Python代码示例,展示如何使用机器学习库scikit-learn进行数据预处理、模型训练和预测。无论你是AI领域的初学者,还是有一定基础的开发者,这篇文章都将为你提供有价值的信息和知识。
|
6天前
|
存储 人工智能 自动驾驶
数据中心是AI和数字经济浪潮的核心
数据中心是AI和数字经济浪潮的核心
|
1月前
|
SQL 人工智能 自然语言处理
【AI 技术分享】大模型与数据检索的探索实践
本文基于2024年9月27日与阿里云合办的线下沙龙分享整理而成,探讨如何通过大语言模型(LLM)让数据访问更简单。随着企业数据量增长,传统数据访问方式已难以满足需求。LLM结合自然语言检索,使非技术用户能直接用自然语言与数据交互,降低数据访问门槛。文章介绍了NL2SQL技术,通过LLM理解自然语言问题并生成SQL查询,实现高效数据获取。同时,探讨了AskTable架构及其在实际应用中的挑战与解决方案。
192 5
【AI 技术分享】大模型与数据检索的探索实践
|
20天前
|
存储 人工智能 弹性计算
基于《文档智能 & RAG让AI大模型更懂业务》解决方案实践体验后的想法
通过实践《文档智能 & RAG让AI大模型更懂业务》实验,掌握了构建强大LLM知识库的方法,处理企业级文档问答需求。部署文档和引导充分,但需增加资源选型指导。文档智能与RAG结合提升了文档利用效率,但在答案质量和内容精确度上有提升空间。解决方案适用于法律文档查阅、技术支持等场景,但需加强数据安全和隐私保护。建议增加基于容量需求的资源配置指导。
80 4
|
18天前
|
人工智能 JavaScript 前端开发
利用 AI 进行代码生成:GitHub Copilot 的实践与反思
【10月更文挑战第23天】本文探讨了GitHub Copilot,一个由微软和OpenAI合作推出的AI代码生成工具,其核心功能包括智能代码补全、多语言支持、上下文感知和持续学习。文章介绍了Copilot在加速开发流程、学习新语言、提高代码质量和减少重复工作等方面的应用,并反思了AI在代码生成中的代码所有权、安全性和技能发展等问题。最后,文章提供了实施Copilot的最佳实践,强调了在使用AI工具时保持对代码的控制和理解的重要性。
|
22天前
|
人工智能
精通歌词结构技巧:写歌词的方法与实践,妙笔生词AI智能写歌词软件
歌词创作是音乐的灵魂,掌握其结构技巧至关重要。开头需迅速吸引听众,主体部分需结构清晰、情感丰富,结尾则要余韵悠长。无论是叙事还是抒情,妙笔生词智能写歌词软件都能助你一臂之力,提供AI智能创作、优化及解析等多功能支持,助你轻松驾驭歌词创作。
|
22天前
|
人工智能 资源调度 数据可视化
【AI应用落地实战】智能文档处理本地部署——可视化文档解析前端TextIn ParseX实践
2024长沙·中国1024程序员节以“智能应用新生态”为主题,吸引了众多技术大咖。合合信息展示了“智能文档处理百宝箱”的三大工具:可视化文档解析前端TextIn ParseX、向量化acge-embedding模型和文档解析测评工具markdown_tester,助力智能文档处理与知识管理。
|
28天前
|
机器学习/深度学习 人工智能 自然语言处理
探索AI在软件测试中的创新应用与实践###
本文旨在探讨人工智能(AI)技术如何革新软件测试领域,提升测试效率、质量与覆盖范围。通过深入分析AI驱动的自动化测试工具、智能化缺陷预测模型及持续集成/持续部署(CI/CD)流程优化等关键方面,本研究揭示了AI技术在解决传统软件测试痛点中的潜力与价值。文章首先概述了软件测试的重要性和当前面临的挑战,随后详细介绍了AI技术在测试用例生成、执行、结果分析及维护中的应用实例,并展望了未来AI与软件测试深度融合的趋势,强调了技术伦理与质量控制的重要性。本文为软件开发与测试团队提供了关于如何有效利用AI技术提升测试效能的实践指南。 ###
|
30天前
|
人工智能
阅读了《文档智能 & RAG让AI大模型更懂业务》的解决方案后对解决方案的实践原理的理解
阅读《文档智能 & RAG让AI大模型更懂业务》后,我对文档智能处理与RAG技术结合的实践原理有了清晰理解。部署过程中,文档帮助详尽,但建议增加常见错误处理指南。体验LLM知识库后,模型在处理业务文档时效率和准确性显著提升,但在知识库自动化管理和文档适应能力方面仍有改进空间。解决方案适用于多种业务场景,但在特定场景下的集成和定制化方面仍需提升。