机器学习预测农民是否可以得到贷款

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 通过最佳实践帮助您实现上述案例效果 Step1:数据导入MaxCompute 1.1 创建需要上传的本地数据 贷款预测表:(今年申请贷款者) ign="top"> 字段名 含义 类型 描述 id 数据唯一标识符 s

通过最佳实践帮助您实现上述案例效果

Step1:数据导入MaxCompute

1.1 创建需要上传的本地数据

贷款预测表:(今年申请贷款者)

字段名 含义 类型 描述
id 数据唯一标识符 string
name 用户名 string
region 用户所属地区 string 从北到南排列
farmsize 拥有土地大小 double 土地面积
rainfall 降雨量 double 降雨量
landquality 土地质量 double 土地质量数值越大越好
farmincome 收入 double 年收入
maincrop 种植作物 string 种植作物的种类
claimtype 贷款类型 string 两种
claimvalue 贷款金额 double 贷款金额

源数据:farm_claim_predict

贷款训练表:(历史贷款数据)

字段名 含义 类型 描述
id 数据唯一标识符 string
name 用户名 string
region 用户所属地区 string 从北到南排列
farmsize 拥有土地大小 double 土地面积
rainfall 降雨量 double 降雨量
landquality 土地质量 double 土地质量数值越大越好
farmincome 收入 double 年收入
maincrop 种植作物 string 种植作物的种类
claimtype 贷款类型 string 两种
claimvalue 贷款收回金额 double 贷款金额

源数据:farm_claim_train

1.2 创建MaxCompute表

1.2.1 开通MaxCompute

阿里云实名认证账号访问https://www.aliyun.com/product/odps ,开通MaxCompute,选择按量付费进行购买。

<a href=https://img.alicdn.com/tps/TB1TxkNOVXXXXaUaXXXXXXXXXXX-1124-472.png" width="836">

<a href=https://img.alicdn.com/tps/TB1qRw3OVXXXXX_XFXXXXXXXXXX-1243-351.png" width="836">

<a href=https://img.alicdn.com/tps/TB1gvgQOVXXXXXUXVXXXXXXXXXX-1208-337.png" width="836">

1.2.2 数加上创建MaxCompute project

操作步骤:

步骤1: 进入数加管理控制台,前面开通MaxCompute成功页面,点击管理控制台,或者导航产品->大数据(数加)->MaxCompute 点击“管理控制台”。

<a href=http://docs-aliyun.cn-hangzhou.oss.aliyun-inc.com/assets/pic/49126/cn_zh/1487754370705/a1.png" width="836">

步骤2: 创建项目。付费模式选择I/O后付费,输入项目名称:

a2.png

步骤3: 创建MaxCompute表。进入大数据开发套件的数据开发页面:

以开发者身份进入阿里云数加平台>大数据开发套件>管理控制台,点击对应项目操作栏中的进入工作区

TB1rvM2OVXXXXbBXFXXXXXXXXXX-1092-301.png

1.2.3 创建表

点击菜单数据管理,右上新建表

TB1cY7xOVXXXXXTaFXXXXXXXXXX-1280-310.png

1.2.4 填写信息配置

在新建表页面中填写基础信息的各配置项,点击下一步

TB1NBZ7OVXXXXXYXFXXXXXXXXXX-831-502.png

在新建表页面中填写字段和分区信息的各配置项

TB1UQcWOVXXXXX_XVXXXXXXXXXX-938-758.png

1.2.5 点击提交

新建表提交成功后,系统将自动跳转返回数据表管理界面,点击我管理的表即可看到新建表

1.3 导入本地文件

进入大数据开发套件控制台,点击对应项目的进入工作区,点击菜单数据开发-->导入-->导入本地数据

TB1lZM0OVXXXXcuXFXXXXXXXXXX-799-660.png

选择目标表,并选择字段匹配方式,点击导入

TB1JLQ6OVXXXXa5XFXXXXXXXXXX-799-564.png

文件导入成功后,系统右上角将提示文件导入成功,同时可以执行select语句查看数据

TB1458gPXXXXXb4XXXXXXXXXXXX-961-666.png

Step2:机器学习中的数据准备

进入机器学习管理控制台,点击对应项目的进入机器学习

a3.png

选择需要的租户及工作空间,点击“提交”

1

进入机器学习页面后,右击我的实验点击新建空白实验,输入实验名和实验描述
TB10SUsOVXXXXcSaFXXXXXXXXXX-399-386.png

切换到组件栏,向画布中拖入读数据表,点击读数据表,在右侧表选择栏填入你的MaxCompute表

TB14BgAOVXXXXXkaFXXXXXXXXXX-915-279.png

TB1YVEEOVXXXXXSapXXXXXXXXXX-465-134.png

TB1IW3GOVXXXXaIapXXXXXXXXXX-437-137.png

切换到字段信息栏,可以查看输入表的字段名、数据类型和前100行数据的数值分布

TB1CXEBOVXXXXcqapXXXXXXXXXX-278-418.png

Step3:数据探索流程

实验流程图:

TB1lTAAOVXXXXcMaXXXXXXXXXXX-701-609.png

3.1 特征工程

将一些字符串类型的数据,根据他们的含义映射成数字。比如说region字段,我们将其中的north、middle、south按照从北到南的顺序分别映射成0、1、2。然后通过类型转换将字段转换成double类型,这样就可以进行下面的回归计算了。

3.1.1 SQL脚本

向画布中拖入工具-->SQL脚本,将贷款训练集和贷款预测集的数据分别输入到SQL脚本,点击SQL脚本,在右侧分别输入如下SQL语句

select id,(case region when '"north"' then 0 when '"midlands"' then 1 else 2 end) as region_num,farmsize,rainfall,landquality,farmincome,(case claimtype when '"decommission_land"' then 1 else 0 end) as claimtype_num,claimvalue from  ${t1};

TB1sI.9OVXXXXb8XpXXXXXXXXXX-937-362.png

TB1xbA1OVXXXXcaXFXXXXXXXXXX-845-378.png

右击SQL脚本点击执行后,查看结果

TB1y6dXPXXXXXcHXXXXXXXXXXXX-789-491.png

3.1.2 数据视图

向画布中拖入统计分析-->数据视图,将SQL脚本的结果输入到数据视图中,点击数据视图,在右侧选择字段

贷款训练集字段选择:

TB1hZwSOVXXXXXnaXXXXXXXXXXX-1206-549.png

贷款预测集字段选择:

TB1Q.EIOVXXXXb2aXXXXXXXXXXX-1197-551.png

右击数据视图点击执行后,查看分析报告

贷款训练集分析报告:

TB12fXcPXXXXXXLXXXXXXXXXXXX-1123-537.png

贷款预测集分析报告:

TB1vOcEOVXXXXbiapXXXXXXXXXX-1071-566.png

3.2 回归及预测

线性回归组件对于历史数据训练并生成回归模型,在预测组件中利用回归模型对于预测集数据进行了预测。通过合并列组件将用户ID、预测值、申请的贷款值合并。预测值表示的是用户的还贷能力(预期可以归还的金额)。

3.2.1 线性回归

向画布中拖入机器学习-->回归-->线性回归,将贷款训练集转换后的数据输入到线性回归中,点击线性回归,在右侧选择字段和标签列

TB1vepbPXXXXXalXpXXXXXXXXXX-967-526.png

TB1Tv39OVXXXXbHXpXXXXXXXXXX-276-185.png

右击线性回归点击执行后,查看分析报告

TB1eqxkPXXXXXXLXXXXXXXXXXXX-618-240.png

3.2.2 预测

向画布中拖入机器学习-->预测,将线性回归的输出和贷款预测集的数据视图分别输入到预测中,点击预测,在右侧设置字段

TB12kcIOVXXXXXKapXXXXXXXXXX-990-545.png

TB1jugFOVXXXXa9apXXXXXXXXXX-984-524.png

右击预测点击执行后,查看数据

TB1kngROVXXXXagaXXXXXXXXXXX-654-489.png

3.2.2 SQL脚本

向画布中拖入工具-->SQL脚本,将预测结果输入到SQL脚本中,点击SQL脚本,在右侧输入SQL语句

select * from ${t1};

TB1QHIMOVXXXXcyaXXXXXXXXXXX-996-471.png

右击SQL脚本点击执行后,查看结果

TB1u.cTOVXXXXXmaXXXXXXXXXXX-645-487.png

3.2.3 合并列

向画布中拖入数据预处理-->数据合并-->和并列,将SQL脚本输出和贷款预测集中数据视图转换后的数据分别输入到合并列的关联左表和右表,点击合并列,在右侧选择字段

TB1clRaPXXXXXcMXXXXXXXXXXXX-927-329.png

TB1kW7YOVXXXXXAXVXXXXXXXXXX-900-478.png

右击合并列点击执行后,查看数据

TB14G0fPXXXXXbSXXXXXXXXXXXX-308-489.png

3.3 回归模型评估

通过回归模型评估组件对于回归模型进行评估。

向画布中拖入机器学习-->评估-->回归模型评估,将预测的结果输入到回归模型评估中,点击回归模型评估,在右侧选择原回归值

TB1zCs7OVXXXXc2XpXXXXXXXXXX-897-232.png

右击回归模型评估点击执行后,查看分析报告

TB1Lk.uOVXXXXcvaFXXXXXXXXXX-1028-574.png

下图是对分析报告中字段的解释

TB1gRI1OVXXXXbgXFXXXXXXXXXX-765-541.png

3.4 过滤与映射

通过过滤与映射组件筛选出可以获得贷款的人,这里的业务逻辑是针对每个客户,如果他被预测得到的还款能力大于他申请贷款的金额,就对他发放贷款。

向画布中拖入数据预处理-->采样与过滤-->过滤与映射,将合并列的关联节点输出到过滤与映射中,点击过滤与映射,在右侧选择字段并填写过滤条件

prediction_score-claimvalue>=0;

TB1VVQJOVXXXXctaXXXXXXXXXXX-930-314.png

右击过滤与映射点击执行后,查看数据

TB1bMUSOVXXXXXXaXXXXXXXXXXX-388-495.png

3.5 全表统计

向画布中拖入统计分析-->全表统计,将过滤与映射的结果输出到全表统计中,右击全表统计点击执行后,查看数据

TB1Kgw.OVXXXXXHXpXXXXXXXXXX-1089-107.png

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps&nbsp;
目录
相关文章
|
4月前
|
机器学习/深度学习 数据采集 算法
【机器学习】CART决策树算法的核心思想及其大数据时代银行贷款参考案例——机器认知外界的重要算法
【机器学习】CART决策树算法的核心思想及其大数据时代银行贷款参考案例——机器认知外界的重要算法
|
机器学习/深度学习 大数据
机器学习lgb全国大数据创新应用大赛用户贷款风险预测 完整代码数据 可直接运行
机器学习lgb全国大数据创新应用大赛用户贷款风险预测 完整代码数据 可直接运行
136 0
|
机器学习/深度学习
机器学习xgboost的用户贷款是否违约进行预测 完整代码数据 计算机毕设
机器学习xgboost的用户贷款是否违约进行预测 完整代码数据 计算机毕设
75 0
|
机器学习/深度学习
【阿旭机器学习实战】【13】决策树分类模型实战:泰坦尼克号生存预测
【阿旭机器学习实战】【13】决策树分类模型实战:泰坦尼克号生存预测
【阿旭机器学习实战】【13】决策树分类模型实战:泰坦尼克号生存预测
|
机器学习/深度学习 算法 数据挖掘
【机器学习项目实战10例】(九):基于特征工程完成对贷款数据集Lending Club的预处理
【机器学习项目实战10例】(九):基于特征工程完成对贷款数据集Lending Club的预处理
382 0
【机器学习项目实战10例】(九):基于特征工程完成对贷款数据集Lending Club的预处理
|
机器学习/深度学习 移动开发 Windows
机器学习奥林匹克-身体健康与幸福之心脏病预测
机器学习奥林匹克-身体健康与幸福之心脏病预测
413 0
机器学习奥林匹克-身体健康与幸福之心脏病预测
|
机器学习/深度学习 数据处理
机器学习——PM2.5预测白话
本项目仅用于参考,提供思路和想法并非标准答案!请谨慎抄袭!
419 0
机器学习——PM2.5预测白话
|
机器学习/深度学习 数据采集 人工智能
就离谱!使用机器学习预测2022世界杯:小组赛挺准,但冠亚季军都错了 ⛵
本文使用机器学习建模对 FIFA 2022世界杯结果进行了预测,赛后将其与真实结果进行比较,可以看出:小组赛到1/4决赛的预测准确率很高,半决赛和决赛的预测准确率为0,冠亚季军无一预测准确。
137 0
就离谱!使用机器学习预测2022世界杯:小组赛挺准,但冠亚季军都错了 ⛵
|
机器学习/深度学习 算法
​Kaggle M5 Forecasting:传统预测方法与机器学习预测方法对比(三)
​Kaggle M5 Forecasting:传统预测方法与机器学习预测方法对比(三)
234 0
​Kaggle M5 Forecasting:传统预测方法与机器学习预测方法对比(三)
|
机器学习/深度学习 vr&ar
​Kaggle M5 Forecasting:传统预测方法与机器学习预测方法对比(二)
​Kaggle M5 Forecasting:传统预测方法与机器学习预测方法对比(二)
228 0
​Kaggle M5 Forecasting:传统预测方法与机器学习预测方法对比(二)