实践!如何用阿里云的机器学习得出泰坦尼克号沉船事件中谁有更大的概率获救

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
模型训练 PAI-DLC,5000CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 阿里云机器学习平台该平台沉淀了阿里巴巴的机器学习算法体系和经验,从数据的预处理、到机器学习算法、模型的评估和预测动能。
阿里云机器学习平台是一套基于MaxCompute(阿里云分布式计算引擎)的数据挖掘、建模、预测的工具。它提供算法开发、分享、模型训练、部署、监控等一站式算法服务,用户可以通过可视化的操作界面来操作整个实验流程,同时也支持PAI命令,让用户通过命令行来操作实验。

该平台沉淀了阿里巴巴的机器学习算法体系和经验,从数据的预处理、到机器学习算法、模型的评估和预测动能。

bfe5b06a07aa441a1c24d4529d88b6a4529ceba8
操作界面


阿里云机器学习平台架构

b852748cd2c7cc5aca0d9307d795463ae18df849
阿里云机器学习平台的架构图

通过上面的架构图就可以看出,用户可以通过可视化界面实现实验的搭建服务,底层的算法和计算引擎完全解耦,数据加工人员只需要考虑每个算法的准确率和效能,无需操心底层的计算。每个算法以plugin的形式运行在MaxCompute(阿里云分布式计算引擎)上,计算结果会以可视化的方式返回并展现给用户。

8dbb76ef1440711e88376d69cf28379c9c0f4e8e
结果展示图

人人都是大数据玩家

阿里云机器学习平台的产品主要优势可以概括为以下几方面:

1.良好的交互设计

通过拖拽的方式搭配实验,并且提供了数据模型的可视化功能。缩短了用户与数据的距离,真正实现了数据的触手可及。同时也提供了命令行工具,方便用户将算法嵌入到自身的工程中。

1c785e667d98e100ae679a159f9f6abe34275fbb
操作界面

2.优质、丰富的机器学习算法

平台上边的机器学习算法都是经过阿里大规模业务锤炼的。从算法的丰富性角度来看,阿里云机器学习平台不仅提供了基础的聚类、回归等机器学习算法,也提供了文本分析、特征处理的算法。

b3ce8b766145f6230edfd9a2e0daa4ea42375499
算法框架

3.与阿里系的融合

使用阿里云机器学习平台计算的模型直接存储在MaxCompute上,可以配合其它阿里云的产品组件加以利用。

918ea138e895e10ec0c2993b5ad9a163aa90f8cf
阿里云数加产品图

4.优质的技术保障

阿里云机器学习算法平台的背后是阿里巴巴IDST的算法科学家和阿里云的技术保障团队,在使用过程中遇到任何问题都可以到工单系统提交工单或者直接与相关接口人联系。

0c3314480cbbcb10f3b98d9d3e8abafbdfa33537
工单系统

使用场景

阿里云机器学习平台丰富的算法和技术保障支持也给用户解决自身业务场景带来了更多的可能性和想象空间。在DT时代,通过使用阿里云机器学习平台可以真正的实现数据驱动业务的目的。因此使用场景包括:数据预处理、特征工程、机器学习模型训练、模型评估等组件来解决实际业务场景。

05c5ad93445de9d55bb8566e03e7ee2e626e7748
实验流程

这里举一个沉重但又挺有意义的例子。比如,这样的一个应用场景:泰坦尼克号沉船事件。通过分析泰坦尼克号沉船事件幸存者和丧生者的数据,判断拥有什么样的属性的人有更大的概率获救。

数据准备

22fcbd236aa9b5d3b06e247c72cbd4e89d2a5fc0
原始数据

将数据导入MaxCompute,

PassengerId:用户的ID号
Survived:乘客是否获救,“1”表示获救,“0”表示没有获救。目标队列(target)
Pclass:乘客的社会阶层,“1”表示Upper,“2”表示Middle,“3”表示Lower
Sex:乘客的性别,“1”表示男,“0”表示女
Age:乘客的年龄
sibsp:乘客在船上的配偶数量或兄弟姐妹数量
parch:乘客在船上的父母或子女数量
fare:乘客的船费
cabin:是否住在独立的房间,“1”表示是,“0”为否
embarked:表示乘客上船的码头距离泰坦尼克出发码头的距离,数值越大表示距离越远

搭建实验流程
90d6db6c7b4482440f308f672ae91a7bdbaac145
实验流程

1) 首先将数据集按照7:3进行拆分,一部分作为titanic训练集,一部分作为预测集。
2) 将数据进行标准化处理,去除量纲对于数据造成的干扰。
3) 训练数据通过逻辑回归LR算法生成模型。
4) 对预测集进行预测。
5) 通过ROC曲线和混淆矩阵来对结果进行评估。

评估结果

混淆矩阵结果

99d3a390edcabde18b932a9d7df34ac8d5e04ecf
混淆矩阵结果分析

说明:
1. 正确率:预测正确的正例个数占预测为正例的比例,即P=TP/(TP+FP); 
2. 召回率: 预测正确的正例个数占实际正例的比例,即R=TP/(TP+FN);
3. F1指标:P和R的中权调和平均,即F1=2PR/(P+R)。当F1较高时说明实验方法比较理想; 

ROC曲线评估结果

48c1dbd749d56df58aabd72d656acfb0e5c81354

ROC曲线结果分析

说明:
1. TPR=TP/(TP+FN); 
2. FPR=FP/(FP+TN); 
3. ROC曲线:
Y轴:TPR; X轴:FPR;
(0,1):FRP=0,TPR=1。FN=0,FP=0,将所有样本都正确分类; 
(1,0):即:FPR=1,TPR=0,预测结果相反,正变负,负变正; 
(0,0):FRP=TPR=0,将所有样本划分为负样本; 
(1,1):所有样本划分为正样本;
ROC曲线越接近左上角,该分类器越好; 
4. y=x,随机猜测,一半正样本,一半负样本; 
5. AUC: ROC曲线下面积,应该介于0.5~1之间。AUC 越大,分类器越好 ; 

模型分析

逻辑回归生成模型:


00ca25ab5b5c6ba2a891678c32c445fcd76b724e
模型分析

  根据Logical regression的特性,model输出的是每个特征的线性组合。3.199为常数项,不予考虑。其它系数绝对值越大说明对结果影响越大。通过这一结论得出age、sex和pclass对于结果影响最大。

  根据sigmoid函数得出负号系数的绝对值越大其结果的正例可能性越大。所以我们可以得出结论,age、pclass和sex的值越小,目标值越大。

  也就是有钱人家的女人和小孩有更大的获救概率。

  通过真实数据比对也印证了我们的分析结果:

5c5913acb25e8377fd25bb03d0b8ebc30e788c15
真实数据

相关资料

1.免费体验馆: 点此进入
2.官网入口: 点此进入
3.产品文档: 点此进入
相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
目录
相关文章
|
2月前
|
机器学习/深度学习 人工智能 专有云
人工智能平台PAI使用问题之怎么将DLC的数据写入到另一个阿里云主账号的OSS中
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
19天前
|
机器学习/深度学习 存储 人工智能
【ACL2024】阿里云人工智能平台PAI多篇论文入选ACL2024
近期,阿里云人工智能平台PAI的多篇论文在ACL2024上入选。论文成果是阿里云与阿里集团安全部、华南理工大学金连文教授团队、华东师范大学何晓丰教授团队共同研发。ACL(国际计算语言学年会)是人工智能自然语言处理领域的顶级国际会议,聚焦于自然语言处理技术在各个应用场景的学术研究。该会议曾推动了预训练语言模型、文本挖掘、对话系统、机器翻译等自然语言处理领域的核心创新,在学术和工业界都有巨大的影响力。此次入选标志着阿里云人工智能平台PAI在自然语言处理和多模态算法、算法框架能力方面研究获得了学术界认可。
|
2月前
|
数据采集 人工智能 自然语言处理
阿里云百炼平台深度体验:智能问答与模型训练的创新之旅
在人工智能的浪潮中,阿里云百炼平台以其强大的大模型开发能力,为企业和个人开发者提供了一站式的解决方案。本文将从知识检索应用搭建、模型训练调优以及流程管理功能三个角度,全面评测阿里云百炼平台的实际使用体验。
148 3
|
2月前
|
JSON Shell API
阿里云PAI-Stable Diffusion开源代码浅析之所有api的入参如何看
阿里云PAI-Stable Diffusion开源代码浅析之所有api的入参如何看
|
10天前
|
机器学习/深度学习 存储 缓存
Java本地高性能缓存实践问题之阿里云机器学习团队开源社区的问题如何解决
Java本地高性能缓存实践问题之阿里云机器学习团队开源社区的问题如何解决
|
17天前
|
机器学习/深度学习 存储 缓存
模型遇见知识图谱问题之参与阿里云机器学习团队的开源社区的问题如何解决
模型遇见知识图谱问题之参与阿里云机器学习团队的开源社区的问题如何解决
|
2月前
|
存储 人工智能 弹性计算
|
2月前
|
机器学习/深度学习 人工智能 分布式计算
阿里云人工智能平台PAI论文入选OSDI '24
阿里云人工智能平台PAI的论文《Llumnix: Dynamic Scheduling for Large Language Model Serving》被OSDI '24录用。论文通过对大语言模型(LLM)推理请求的动态调度,大幅提升了推理服务质量和性价比。
|
2月前
|
人工智能 自然语言处理 算法
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理

相关产品

  • 人工智能平台 PAI
  • 下一篇
    云函数