隐语V0.7.11版本更新:金融全链路算法完善 ,面向开发者发布配套的交互式教程

简介: 隐语V0.7.11版本更新:金融全链路算法完善 ,面向开发者发布配套的交互式教程


收录于合集

#隐语解读20

#版本更新7

版本更新总览隐语V0.7.11版本更新:在基础设备层、多方安全计算算法、联邦学习算法等方向,增加了算法或进行了优化。

  1. 多方安全计算:
  • 支持典型金融场景全链路算法,包括各种业务中需要的单方特征功能和评估算法:如评分卡、模型评估、全表统计、特征稳定性(PSI),模型稳定性(PVA)算法等
  • ECDH-PSI新增支持SM2、Secp256k1、FourQ等多种椭圆曲线选择
  1. 联邦学习:
  • 垂直场景下,拆分学习支持多方(n>=2)NN联合训练;对于基于Tenserflow的拆分学习模型计算执行图逻辑进行了优化,性能提升数倍
  • 水平场景下,水平联邦 XGB算法支持离线预测、模型微调(finetune),支持基于pytorch的神经网络分类和回归算法
  • 水平和垂直算法支持差分隐私增强
  1. 基础设备层:
  • HEU开放硬件加速接口和算法向量化调用接口,优化对接加速硬件的性能。


版本核心亮点本次发版重点完善了典型金融场景全链路算法(点击查看“基于MPC的金融风控全链路技术方案”详解)并面向开发者发布配套的交互式教程。完整demo示例请访问https://secretflow.readthedocs.io/zh_CN/latest/tutorial/risk_control_scenario.html可使用隐语在风控领域进行LR模型和XGB模型的模型研发工作,后续还将陆续开放模型部署和在线/离线模型预测功能。下面就如何基于隐语框架实现典型金融场景全链路功能进行简要介绍,利用一个开源数据集训练一个金融风控场景常用的线性回归和XGB模型,过程中需包含以下几个步骤:1、样本对齐隐私求交(Private Set Intersection)是一种密码学方法,可以获取两个集合的交集,而不泄露任何其他信息。在隐语中,SPU设备支持三种基于半诚实模型隐私求交算法:

  • ECDH: 基于公钥密码学;通信量较小,适用于低带宽场景;计算量大,CPU的型号和核数对性能影响比较大。
  • KKRT:基于布谷鸟哈希(Cuckoo Hashing)以及高效不经意传输扩展(OT Extension);通信量较大,适用于内网场景;计算量小。
  • BC22PCG: 基于随机相关函数生成器;相比ecdh/kkrt16 通信量,计算量更加平衡,适用更多的场景。

2、特征预处理

  • 值替换
  • 缺失值填充
  • WOE分组/分箱转换
  • one-hot编码
  • 标准化

3、数据分析

  • 全表统计

隐语提供了类似于 pd.DataFrame.describe 来展示所有特征的基本统计信息。在特征预处理的过程中,可以不断调用全表统计来关注预处理效果。

  • Pearson 相关系数矩阵

计算特征和特征之间,特征和标签之间的相关系数矩阵。

  • VIF指标计算

隐语支持VIF的计算来进行多重共线性检验。4、模型训练及预测

  • 逻辑回归模型:请参考相关的API文档。
  • XGBoost模型:请参考相关的API文档。

API文档地址:https://secretflow.readthedocs.io/zh_CN/latest/api/index.html5、模型评估可利用测试数据集对模型效果进行评估,包括:

  • 二分类评估

隐语中对二分类的评估有集成的支持:同时计算 AUC, KS, F1 Score, Lift, K-S, Gain, Precision, Recall 等统计数值, 并提供(基于prediction score的)等频和等距分箱的统计报告和总报告。

  • PVA

预测和实际平均值比较。

  • P-Value

双方可通过p-value的值来判断参数是否显著,即该自变量是否可以有效预测因变量的变异, 从而判定对应的解释变量是否应包括在模型中。

  • 评分卡转换

评分卡设定的分值刻度可以通过将分值表示为比率对数的线性表达式来定义。

代码地址:

https://github.com/secretflow/secretflow/blob/main/docs/tutorial/risk_control_scenario.ipynb


同时,除隐语框架开放的代码,隐语开放平台已上线上述流程功能。欢迎申请试用:隐语开放平台,体验金融全链路流程操作。

相关文章
|
机器学习/深度学习 算法 搜索推荐
从理论到实践,Python算法复杂度分析一站式教程,助你轻松驾驭大数据挑战!
【10月更文挑战第4天】在大数据时代,算法效率至关重要。本文从理论入手,介绍时间复杂度和空间复杂度两个核心概念,并通过冒泡排序和快速排序的Python实现详细分析其复杂度。冒泡排序的时间复杂度为O(n^2),空间复杂度为O(1);快速排序平均时间复杂度为O(n log n),空间复杂度为O(log n)。文章还介绍了算法选择、分而治之及空间换时间等优化策略,帮助你在大数据挑战中游刃有余。
544 3
|
机器学习/深度学习 监控 算法
yolov8+多算法多目标追踪+实例分割+目标检测+姿态估计(代码+教程)
yolov8+多算法多目标追踪+实例分割+目标检测+姿态估计(代码+教程)
|
机器学习/深度学习 算法
基于改进遗传优化的BP神经网络金融序列预测算法matlab仿真
本项目基于改进遗传优化的BP神经网络进行金融序列预测,使用MATLAB2022A实现。通过对比BP神经网络、遗传优化BP神经网络及改进遗传优化BP神经网络,展示了三者的误差和预测曲线差异。核心程序结合遗传算法(GA)与BP神经网络,利用GA优化BP网络的初始权重和阈值,提高预测精度。GA通过选择、交叉、变异操作迭代优化,防止局部收敛,增强模型对金融市场复杂性和不确定性的适应能力。
551 80
|
机器学习/深度学习 算法 数据安全/隐私保护
基于模糊神经网络的金融序列预测算法matlab仿真
本程序为基于模糊神经网络的金融序列预测算法MATLAB仿真,适用于非线性、不确定性金融数据预测。通过MAD、RSI、KD等指标实现序列预测与收益分析,运行环境为MATLAB2022A,完整程序无水印。算法结合模糊逻辑与神经网络技术,包含输入层、模糊化层、规则层等结构,可有效处理金融市场中的复杂关系,助力投资者制定交易策略。
|
人工智能 算法 搜索推荐
算法备案全流程攻略:保姆级教程
在AI热潮下,算法成为互联网服务的核心驱动力,但也带来了大数据杀熟、算法歧视等问题。为规范行业发展,算法备案制度应运而生。该制度涵盖网站、APP等多种产品形式,要求企业在2个月内完成备案,依据《互联网信息服务算法推荐管理规定》等法规。未备案企业可能面临无法上线、罚款甚至刑罚的后果。备案流程包括注册、主体备案、信息填报及审核,确保算法合规运营。通过悬挂备案号、标识AI生成内容和定期自查,企业需持续维护算法安全与合规。
|
机器学习/深度学习 算法
基于遗传优化的双BP神经网络金融序列预测算法matlab仿真
本项目基于遗传优化的双BP神经网络实现金融序列预测,使用MATLAB2022A进行仿真。算法通过两个初始学习率不同的BP神经网络(e1, e2)协同工作,结合遗传算法优化,提高预测精度。实验展示了三个算法的误差对比结果,验证了该方法的有效性。
227 10
|
人工智能 算法 安全
深度讲解-互联网算法备案指南和教程
随着人工智能和大数据技术的发展,互联网算法在内容推荐、用户画像等领域日益重要,但也带来了安全风险和合规挑战。国家互联网信息办公室为此发布了《互联网算法备案管理规定》,要求具有舆论属性或社会动员能力的互联网信息服务提供者进行算法备案,以确保算法透明性和合规性,维护网络健康秩序。唯安创远AI合规专家将解析备案的必要性、流程及其对企业的影响,帮助企业顺利完成备案。
1461 3
|
机器学习/深度学习 算法 搜索推荐
从理论到实践,Python算法复杂度分析一站式教程,助你轻松驾驭大数据挑战!
【7月更文挑战第22天】在大数据领域,Python算法效率至关重要。本文深入解析时间与空间复杂度,用大O表示法衡量执行时间和存储需求。通过冒泡排序(O(n^2)时间,O(1)空间)与快速排序(平均O(n log n)时间,O(log n)空间)实例,展示Python代码实现与复杂度分析。策略包括算法适配、分治法应用及空间换取时间优化。掌握这些,可提升大数据处理能力,持续学习实践是关键。
441 1
|
机器学习/深度学习 存储 算法
数据结构与算法 动态规划(启发式搜索、遗传算法、强化学习待完善)
数据结构与算法 动态规划(启发式搜索、遗传算法、强化学习待完善)
337 1

热门文章

最新文章