文档备案控制台

开发者社区大数据文章正文

利用机器学习进行金融数据风险评估（2）

2022-04-24 415

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 利用机器学习进行金融数据风险评估（2）

预测集字段：
uid transaction_datetime

查看数据的维度

model_vars.head(2)

设置数据框展示列数

pd.set_option( 'display.max_columns' , 100)

拼接样本特征和样本结果作为训练数据有 target（实际结果）

transaction_risk_sample = transaction_risk_sample.merge(model_vars, on = 'uid', how = 'left')
样本特征表model_vars 
样本结果表是transaction_risk_sample
两表以uid字段关联查询 并以左表（样本结果表transaction_risk_sample为基准）

查看拼接之后的样本结果表

uid transaction_datetime time_sinc_login_sec timelong_lst_login log_from_lst_login city_lst_login result_lst_login type_lst_login scan_login_lst_login security_login_lst_login cnt_login sum_timelong avg_timelong cnt_log_from cnt_ip cnt_city cnt_result cnt_result1_login cnt_type1_login cnt_type2_login cnt_type3_login cnt_scan1_login cnt_scan0_login cnt_sec1_login cnt_sec0_login rat_timelong_lst_avg rat_result1_login rat_type1_login rat_type2_login rat_type3_login rat_scan1_login rat_scan0_login rat_sec1_login

为了保持训练样本和预测样本数据格式一致做增删操作

此处预测样本中没有sample列 故将此从训练样本中删除
del transaction_risk_sample['sample']

观察训练样本中0/1分布情况

transaction_risk_sample['target'].value_counts()
0有19133条数据
1有657行数据

微信图片_20220424215117.png

分析特征变量

将变量名转换为列表便于后续的循环遍历

var_all = transaction_risk_sample.columns.tolist()

微信图片_20220424215125.png

文章标签：

机器学习/深度学习

数据格式

关键词：

人工智能平台 PAI数据

人工智能平台 PAI评估

人工智能平台 PAI风险

人工智能平台 PAI金融

人工智能平台 PAI风险评估

平凡人笔记

目录

相关文章

Deephub

|

9月前

|

机器学习/深度学习数据采集算法

量子机器学习入门：三种数据编码方法对比与应用

在量子机器学习中，数据编码方式决定了量子模型如何理解和处理信息。本文详解角度编码、振幅编码与基础编码三种方法，分析其原理、实现及适用场景，帮助读者选择最适合的编码策略，提升量子模型性能。

Deephub

747 8 8

长梦

|

机器学习/深度学习数据采集 JSON

Pandas数据应用：机器学习预处理

本文介绍如何使用Pandas进行机器学习数据预处理，涵盖数据加载、缺失值处理、类型转换、标准化与归一化及分类变量编码等内容。常见问题包括文件路径错误、编码不正确、数据类型不符、缺失值处理不当等。通过代码案例详细解释每一步骤，并提供解决方案，确保数据质量，提升模型性能。

长梦

619 88 89

Deephub

|

机器学习/深度学习算法数据挖掘

PyTabKit：比sklearn更强大的表格数据机器学习框架

PyTabKit是一个专为表格数据设计的新兴机器学习框架，集成了RealMLP等先进深度学习技术与优化的GBDT超参数配置。相比传统Scikit-Learn，PyTabKit通过元级调优的默认参数设置，在无需复杂超参调整的情况下，显著提升中大型数据集的性能表现。其简化API设计、高效训练速度和多模型集成能力，使其成为企业决策与竞赛建模的理想工具。

Deephub

555 12 12

PyTabKit：比sklearn更强大的表格数据机器学习框架

阿里云大数据Al技术

|

人工智能 JSON 自然语言处理

如何用大模型评估大模型——PAI-Judge裁判员大语言模型的实现简介

阿里云人工智能平台 PAI 推出 PAI-Judge 裁判员大模型，为用户构建符合应用场景的多维度、细粒度的评测体系，支持单模型评测和双模型竞技两种模式，允许用户自定义参数，实现准确、灵活、高效的模型自动化评测，为模型迭代优化提供数据支撑。相比通用大模型尤其在回答确定性/数学类问题、角色扮演、创意文体写作、翻译等场景下，PAI-Judge 系列模型表现优异，可以直接用于大模型的评估与质检。

阿里云大数据Al技术

1621 8 8

Echo_Wish

|

机器学习/深度学习数据采集算法

机器学习在生物信息学中的创新应用：解锁生物数据的奥秘

机器学习在生物信息学中的创新应用：解锁生物数据的奥秘

Echo_Wish

1117 36 36

蚝油菜花

|

机器学习/深度学习人工智能

Diff-Instruct：指导任意生成模型训练的通用框架，无需额外训练数据即可提升生成质量

Diff-Instruct 是一种从预训练扩散模型中迁移知识的通用框架，通过最小化积分Kullback-Leibler散度，指导其他生成模型的训练，提升生成性能。

蚝油菜花

421 11 11

Diff-Instruct：指导任意生成模型训练的通用框架，无需额外训练数据即可提升生成质量

阿里云大数据Al技术

|

人工智能 Kubernetes Cloud Native

跨越鸿沟：PAI-DSW 支持动态数据挂载新体验

本文讲述了如何在 PAI-DSW 中集成和利用 Fluid 框架，以及通过动态挂载技术实现 OSS 等存储介质上数据集的快速接入和管理。通过案例演示，进一步展示了动态挂载功能的实际应用效果和优势。

阿里云大数据Al技术

973 9 9

zys_

|

机器学习/深度学习传感器数据采集

基于机器学习的数据分析：PLC采集的生产数据预测设备故障模型

本文介绍如何利用Python和Scikit-learn构建基于PLC数据的设备故障预测模型。通过实时采集温度、振动、电流等参数，进行数据预处理和特征提取，选择合适的机器学习模型（如随机森林、XGBoost），并优化模型性能。文章还分享了边缘计算部署方案及常见问题排查，强调模型预测应结合定期维护，确保系统稳定运行。

zys_

1391 0 0

袁长猛

|

机器学习/深度学习人工智能自然语言处理

模型训练数据-MinerU一款Pdf转Markdown软件

MinerU是由上海人工智能实验室OpenDataLab团队开发的开源智能数据提取工具，专长于复杂PDF文档的高效解析与提取。它能够将含有图片、公式、表格等多模态内容的PDF文档转化为Markdown格式，同时支持从网页和电子书中提取内容，显著提升了AI语料准备的效率。MinerU具备高精度的PDF模型解析工具链，能自动识别乱码，保留文档结构，并将公式转换为LaTeX格式，广泛适用于学术、财务、法律等领域。

袁长猛

3197 4 4

土木林森

|

机器学习/深度学习 Python

机器学习中评估模型性能的重要工具——混淆矩阵和ROC曲线。混淆矩阵通过真正例、假正例等指标展示模型预测情况

本文介绍了机器学习中评估模型性能的重要工具——混淆矩阵和ROC曲线。混淆矩阵通过真正例、假正例等指标展示模型预测情况，而ROC曲线则通过假正率和真正率评估二分类模型性能。文章还提供了Python中的具体实现示例，展示了如何计算和使用这两种工具来评估模型。

土木林森

880 8 8

热门文章

最新文章

十大Python机器学习开源项目

如何快速在阿里云上构建自己的机器学习应用

收藏 | 一文打尽AI、机器学习网络资源！

机器学习-深度学习：如何使用SuperLearner精准诊断？

【人工智能】机器学习之Python使用KNN算法进行电影类型预测以及使用KNN算法对鸢尾花进行分类

机器学习系列7 基于Python的Scikit-learn库构建逻辑回归模型

机器学习之深度学习简介

PySpark ML——分布式机器学习库

人工智能、机器学习、深度学习之间的关系是什么？

八个常见的机器学习算法的计算复杂度总结

机器学习模型的评估与选择标准

【机器学习】随机森林：深度解析与应用实践

【机器学习】Adaboost: 强化弱学习器的自适应提升方法

【机器学习】K-近邻算法（KNN）全面解析

掌握机器学习：从基础到实践

探索AI的无限可能：从机器学习到深度学习

利用机器学习进行情感分析：从理论到实践云原生技术在现代软件开发中的应用与挑战

利用机器学习进行股市预测的可行性分析

利用机器学习优化数据中心能效的策略

利用机器学习优化数据中心的能效管理

相关课程

更多

PAI平台学习路线：机器学习入门到应用

场景实践 - 机器学习PAI实现精细化营销

场景实践 - 基于阿里云PAI机器学习平台使用时间序列分解模型预测商品销量

场景实践 - 基于机器学习进行收入预测分析

机器学习概览及常见算法

机器学习入门-概念原理及常用算法

相关电子书

更多

阿里巴巴机器学习平台AI

微博机器学习平台架构和实践

机器学习及人机交互实战

相关实验场景

更多

使用PAI+LLaMA Factory微调Qwen2-VL模型，搭建文旅领域知识问答机器人

在PAI ArtLab一键设计AIGC新春红包

下一篇

阿里云数据库产品支持免费试用吗？最新可试用数据库规格信息、配置及可试用人群参考