隐语V0.7.11版本更新:金融全链路算法完善 ,面向开发者发布配套的交互式教程

简介: 隐语V0.7.11版本更新:金融全链路算法完善 ,面向开发者发布配套的交互式教程


收录于合集

#隐语解读20

#版本更新7

版本更新总览隐语V0.7.11版本更新:在基础设备层、多方安全计算算法、联邦学习算法等方向,增加了算法或进行了优化。

  1. 多方安全计算:
  • 支持典型金融场景全链路算法,包括各种业务中需要的单方特征功能和评估算法:如评分卡、模型评估、全表统计、特征稳定性(PSI),模型稳定性(PVA)算法等
  • ECDH-PSI新增支持SM2、Secp256k1、FourQ等多种椭圆曲线选择
  1. 联邦学习:
  • 垂直场景下,拆分学习支持多方(n>=2)NN联合训练;对于基于Tenserflow的拆分学习模型计算执行图逻辑进行了优化,性能提升数倍
  • 水平场景下,水平联邦 XGB算法支持离线预测、模型微调(finetune),支持基于pytorch的神经网络分类和回归算法
  • 水平和垂直算法支持差分隐私增强
  1. 基础设备层:
  • HEU开放硬件加速接口和算法向量化调用接口,优化对接加速硬件的性能。


版本核心亮点本次发版重点完善了典型金融场景全链路算法(点击查看“基于MPC的金融风控全链路技术方案”详解)并面向开发者发布配套的交互式教程。完整demo示例请访问https://secretflow.readthedocs.io/zh_CN/latest/tutorial/risk_control_scenario.html可使用隐语在风控领域进行LR模型和XGB模型的模型研发工作,后续还将陆续开放模型部署和在线/离线模型预测功能。下面就如何基于隐语框架实现典型金融场景全链路功能进行简要介绍,利用一个开源数据集训练一个金融风控场景常用的线性回归和XGB模型,过程中需包含以下几个步骤:1、样本对齐隐私求交(Private Set Intersection)是一种密码学方法,可以获取两个集合的交集,而不泄露任何其他信息。在隐语中,SPU设备支持三种基于半诚实模型隐私求交算法:

  • ECDH: 基于公钥密码学;通信量较小,适用于低带宽场景;计算量大,CPU的型号和核数对性能影响比较大。
  • KKRT:基于布谷鸟哈希(Cuckoo Hashing)以及高效不经意传输扩展(OT Extension);通信量较大,适用于内网场景;计算量小。
  • BC22PCG: 基于随机相关函数生成器;相比ecdh/kkrt16 通信量,计算量更加平衡,适用更多的场景。

2、特征预处理

  • 值替换
  • 缺失值填充
  • WOE分组/分箱转换
  • one-hot编码
  • 标准化

3、数据分析

  • 全表统计

隐语提供了类似于 pd.DataFrame.describe 来展示所有特征的基本统计信息。在特征预处理的过程中,可以不断调用全表统计来关注预处理效果。

  • Pearson 相关系数矩阵

计算特征和特征之间,特征和标签之间的相关系数矩阵。

  • VIF指标计算

隐语支持VIF的计算来进行多重共线性检验。4、模型训练及预测

  • 逻辑回归模型:请参考相关的API文档。
  • XGBoost模型:请参考相关的API文档。

API文档地址:https://secretflow.readthedocs.io/zh_CN/latest/api/index.html5、模型评估可利用测试数据集对模型效果进行评估,包括:

  • 二分类评估

隐语中对二分类的评估有集成的支持:同时计算 AUC, KS, F1 Score, Lift, K-S, Gain, Precision, Recall 等统计数值, 并提供(基于prediction score的)等频和等距分箱的统计报告和总报告。

  • PVA

预测和实际平均值比较。

  • P-Value

双方可通过p-value的值来判断参数是否显著,即该自变量是否可以有效预测因变量的变异, 从而判定对应的解释变量是否应包括在模型中。

  • 评分卡转换

评分卡设定的分值刻度可以通过将分值表示为比率对数的线性表达式来定义。

代码地址:

https://github.com/secretflow/secretflow/blob/main/docs/tutorial/risk_control_scenario.ipynb


同时,除隐语框架开放的代码,隐语开放平台已上线上述流程功能。欢迎申请试用:隐语开放平台,体验金融全链路流程操作。

相关文章
|
2月前
|
机器学习/深度学习 算法 搜索推荐
从理论到实践,Python算法复杂度分析一站式教程,助你轻松驾驭大数据挑战!
【10月更文挑战第4天】在大数据时代,算法效率至关重要。本文从理论入手,介绍时间复杂度和空间复杂度两个核心概念,并通过冒泡排序和快速排序的Python实现详细分析其复杂度。冒泡排序的时间复杂度为O(n^2),空间复杂度为O(1);快速排序平均时间复杂度为O(n log n),空间复杂度为O(log n)。文章还介绍了算法选择、分而治之及空间换时间等优化策略,帮助你在大数据挑战中游刃有余。
87 4
|
7月前
|
机器学习/深度学习 监控 算法
yolov8+多算法多目标追踪+实例分割+目标检测+姿态估计(代码+教程)
yolov8+多算法多目标追踪+实例分割+目标检测+姿态估计(代码+教程)
|
7月前
|
算法 NoSQL Java
Apache Zeppelin系列教程第八篇——LRU算法在Apache Zeppelin中的应用
Apache Zeppelin系列教程第八篇——LRU算法在Apache Zeppelin中的应用
68 0
|
3月前
|
人工智能 算法 安全
深度讲解-互联网算法备案指南和教程
随着人工智能和大数据技术的发展,互联网算法在内容推荐、用户画像等领域日益重要,但也带来了安全风险和合规挑战。国家互联网信息办公室为此发布了《互联网算法备案管理规定》,要求具有舆论属性或社会动员能力的互联网信息服务提供者进行算法备案,以确保算法透明性和合规性,维护网络健康秩序。唯安创远AI合规专家将解析备案的必要性、流程及其对企业的影响,帮助企业顺利完成备案。
295 3
|
5月前
|
机器学习/深度学习 算法 搜索推荐
从理论到实践,Python算法复杂度分析一站式教程,助你轻松驾驭大数据挑战!
【7月更文挑战第22天】在大数据领域,Python算法效率至关重要。本文深入解析时间与空间复杂度,用大O表示法衡量执行时间和存储需求。通过冒泡排序(O(n^2)时间,O(1)空间)与快速排序(平均O(n log n)时间,O(log n)空间)实例,展示Python代码实现与复杂度分析。策略包括算法适配、分治法应用及空间换取时间优化。掌握这些,可提升大数据处理能力,持续学习实践是关键。
134 1
|
5月前
|
机器学习/深度学习 算法 搜索推荐
一个开源且全面的C#算法实战教程
一个开源且全面的C#算法实战教程
102 0
|
6月前
|
存储 机器学习/深度学习 算法
Python算法基础教程
Python算法基础教程
37 0
|
7月前
|
机器学习/深度学习 存储 算法
数据结构与算法 动态规划(启发式搜索、遗传算法、强化学习待完善)
数据结构与算法 动态规划(启发式搜索、遗传算法、强化学习待完善)
107 1
|
7月前
|
算法 机器人 Python
Python实现教程:平面最短路径算法
Python实现教程:平面最短路径算法
114 1
下一篇
DataWorks