实践!如何用阿里云的机器学习得出泰坦尼克号沉船事件中谁有更大的概率获救

本文涉及的产品
模型训练 PAI-DLC,5000CU*H 3个月
交互式建模 PAI-DSW,5000CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 阿里云机器学习平台该平台沉淀了阿里巴巴的机器学习算法体系和经验,从数据的预处理、到机器学习算法、模型的评估和预测动能。
阿里云机器学习平台是一套基于MaxCompute(阿里云分布式计算引擎)的数据挖掘、建模、预测的工具。它提供算法开发、分享、模型训练、部署、监控等一站式算法服务,用户可以通过可视化的操作界面来操作整个实验流程,同时也支持PAI命令,让用户通过命令行来操作实验。

该平台沉淀了阿里巴巴的机器学习算法体系和经验,从数据的预处理、到机器学习算法、模型的评估和预测动能。

bfe5b06a07aa441a1c24d4529d88b6a4529ceba8
操作界面


阿里云机器学习平台架构

b852748cd2c7cc5aca0d9307d795463ae18df849
阿里云机器学习平台的架构图

通过上面的架构图就可以看出,用户可以通过可视化界面实现实验的搭建服务,底层的算法和计算引擎完全解耦,数据加工人员只需要考虑每个算法的准确率和效能,无需操心底层的计算。每个算法以plugin的形式运行在MaxCompute(阿里云分布式计算引擎)上,计算结果会以可视化的方式返回并展现给用户。

8dbb76ef1440711e88376d69cf28379c9c0f4e8e
结果展示图

人人都是大数据玩家

阿里云机器学习平台的产品主要优势可以概括为以下几方面:

1.良好的交互设计

通过拖拽的方式搭配实验,并且提供了数据模型的可视化功能。缩短了用户与数据的距离,真正实现了数据的触手可及。同时也提供了命令行工具,方便用户将算法嵌入到自身的工程中。

1c785e667d98e100ae679a159f9f6abe34275fbb
操作界面

2.优质、丰富的机器学习算法

平台上边的机器学习算法都是经过阿里大规模业务锤炼的。从算法的丰富性角度来看,阿里云机器学习平台不仅提供了基础的聚类、回归等机器学习算法,也提供了文本分析、特征处理的算法。

b3ce8b766145f6230edfd9a2e0daa4ea42375499
算法框架

3.与阿里系的融合

使用阿里云机器学习平台计算的模型直接存储在MaxCompute上,可以配合其它阿里云的产品组件加以利用。

918ea138e895e10ec0c2993b5ad9a163aa90f8cf
阿里云数加产品图

4.优质的技术保障

阿里云机器学习算法平台的背后是阿里巴巴IDST的算法科学家和阿里云的技术保障团队,在使用过程中遇到任何问题都可以到工单系统提交工单或者直接与相关接口人联系。

0c3314480cbbcb10f3b98d9d3e8abafbdfa33537
工单系统

使用场景

阿里云机器学习平台丰富的算法和技术保障支持也给用户解决自身业务场景带来了更多的可能性和想象空间。在DT时代,通过使用阿里云机器学习平台可以真正的实现数据驱动业务的目的。因此使用场景包括:数据预处理、特征工程、机器学习模型训练、模型评估等组件来解决实际业务场景。

05c5ad93445de9d55bb8566e03e7ee2e626e7748
实验流程

这里举一个沉重但又挺有意义的例子。比如,这样的一个应用场景:泰坦尼克号沉船事件。通过分析泰坦尼克号沉船事件幸存者和丧生者的数据,判断拥有什么样的属性的人有更大的概率获救。

数据准备

22fcbd236aa9b5d3b06e247c72cbd4e89d2a5fc0
原始数据

将数据导入MaxCompute,

PassengerId:用户的ID号
Survived:乘客是否获救,“1”表示获救,“0”表示没有获救。目标队列(target)
Pclass:乘客的社会阶层,“1”表示Upper,“2”表示Middle,“3”表示Lower
Sex:乘客的性别,“1”表示男,“0”表示女
Age:乘客的年龄
sibsp:乘客在船上的配偶数量或兄弟姐妹数量
parch:乘客在船上的父母或子女数量
fare:乘客的船费
cabin:是否住在独立的房间,“1”表示是,“0”为否
embarked:表示乘客上船的码头距离泰坦尼克出发码头的距离,数值越大表示距离越远

搭建实验流程
90d6db6c7b4482440f308f672ae91a7bdbaac145
实验流程

1) 首先将数据集按照7:3进行拆分,一部分作为titanic训练集,一部分作为预测集。
2) 将数据进行标准化处理,去除量纲对于数据造成的干扰。
3) 训练数据通过逻辑回归LR算法生成模型。
4) 对预测集进行预测。
5) 通过ROC曲线和混淆矩阵来对结果进行评估。

评估结果

混淆矩阵结果

99d3a390edcabde18b932a9d7df34ac8d5e04ecf
混淆矩阵结果分析

说明:
1. 正确率:预测正确的正例个数占预测为正例的比例,即P=TP/(TP+FP); 
2. 召回率: 预测正确的正例个数占实际正例的比例,即R=TP/(TP+FN);
3. F1指标:P和R的中权调和平均,即F1=2PR/(P+R)。当F1较高时说明实验方法比较理想; 

ROC曲线评估结果

48c1dbd749d56df58aabd72d656acfb0e5c81354

ROC曲线结果分析

说明:
1. TPR=TP/(TP+FN); 
2. FPR=FP/(FP+TN); 
3. ROC曲线:
Y轴:TPR; X轴:FPR;
(0,1):FRP=0,TPR=1。FN=0,FP=0,将所有样本都正确分类; 
(1,0):即:FPR=1,TPR=0,预测结果相反,正变负,负变正; 
(0,0):FRP=TPR=0,将所有样本划分为负样本; 
(1,1):所有样本划分为正样本;
ROC曲线越接近左上角,该分类器越好; 
4. y=x,随机猜测,一半正样本,一半负样本; 
5. AUC: ROC曲线下面积,应该介于0.5~1之间。AUC 越大,分类器越好 ; 

模型分析

逻辑回归生成模型:


00ca25ab5b5c6ba2a891678c32c445fcd76b724e
模型分析

  根据Logical regression的特性,model输出的是每个特征的线性组合。3.199为常数项,不予考虑。其它系数绝对值越大说明对结果影响越大。通过这一结论得出age、sex和pclass对于结果影响最大。

  根据sigmoid函数得出负号系数的绝对值越大其结果的正例可能性越大。所以我们可以得出结论,age、pclass和sex的值越小,目标值越大。

  也就是有钱人家的女人和小孩有更大的获救概率。

  通过真实数据比对也印证了我们的分析结果:

5c5913acb25e8377fd25bb03d0b8ebc30e788c15
真实数据

相关资料

1.免费体验馆: 点此进入
2.官网入口: 点此进入
3.产品文档: 点此进入
相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
目录
相关文章
|
2月前
|
机器学习/深度学习 人工智能 算法
探索机器学习:从理论到实践的旅程
【8月更文挑战第26天】机器学习,这个听起来既神秘又充满无限可能的领域,实际上已经深入到我们生活的方方面面。本文将通过一次虚拟的“旅行”,带领读者了解机器学习的基本概念、主要技术和应用实例,同时提供一个简单的Python代码示例,帮助初学者迈出探索这一激动人心领域的第一步。无论你是科技爱好者,还是对未来充满好奇的学生,这篇文章都将成为你理解并应用机器学习技术的启航点。
|
2天前
|
机器学习/深度学习 算法 自动驾驶
探索机器学习:从理论到实践的旅程
【8月更文挑战第62天】本文通过深入浅出的方式,带领读者走进机器学习的世界。首先介绍了机器学习的基本概念,然后通过一个简单的Python代码示例,展示了如何实现一个基本的线性回归模型。最后,探讨了机器学习在现实生活中的应用,以及未来的发展趋势。本文旨在帮助初学者理解机器学习的基本理念,并激发他们进一步探索这一领域的兴趣。
|
8天前
|
机器学习/深度学习 算法 自动驾驶
探索机器学习:从理论到实践
【9月更文挑战第24天】本文将带你走进机器学习的世界,了解其基本概念,探索其背后的数学原理,并通过Python代码示例,展示如何实现一个简单的线性回归模型。无论你是初学者还是有经验的开发者,都能在这篇文章中找到新的视角和深入的理解。
25 9
|
13天前
|
机器学习/深度学习 人工智能 算法
探索机器学习:从理论到实践
【9月更文挑战第19天】在这篇文章中,我们将深入探讨机器学习的基本概念、主要算法和应用。我们将从理论基础出发,逐步过渡到实际应用,包括代码示例。无论你是初学者还是有经验的开发者,这篇文章都将为你提供有价值的信息和启发。
|
17天前
|
机器学习/深度学习 人工智能 自然语言处理
探索机器学习:从理论到实践
【9月更文挑战第15天】本文将深入浅出地介绍机器学习的基本概念,并逐步展开讲解如何通过Python实现一个简单的线性回归模型。我们的目标是为初学者提供一条清晰的学习路径,帮助他们理解机器学习的核心原理,并通过动手实践加深印象。文章分为三个部分:首先,我们将解释机器学习的基础知识;其次,我们将展示如何使用Python和scikit-learn库构建一个线性回归模型;最后,我们将探讨如何评估模型的性能。无论你是机器学习领域的新手还是有一定基础的学习者,这篇文章都将为你提供有价值的见解和实用的技能。
|
1月前
|
机器学习/深度学习 数据采集 存储
一文读懂蒙特卡洛算法:从概率模拟到机器学习模型优化的全方位解析
蒙特卡洛方法起源于1945年科学家斯坦尼斯劳·乌拉姆对纸牌游戏中概率问题的思考,与约翰·冯·诺依曼共同奠定了该方法的理论基础。该方法通过模拟大量随机场景来近似复杂问题的解,因命名灵感源自蒙特卡洛赌场。如今,蒙特卡洛方法广泛应用于机器学习领域,尤其在超参数调优、贝叶斯滤波等方面表现出色。通过随机采样超参数空间,蒙特卡洛方法能够高效地找到优质组合,适用于处理高维度、非线性问题。本文通过实例展示了蒙特卡洛方法在估算圆周率π和优化机器学习模型中的应用,并对比了其与网格搜索方法的性能。
163 1
|
2月前
|
机器学习/深度学习 数据处理 定位技术
构建您的首个机器学习项目:从理论到实践
【8月更文挑战第28天】本文旨在为初学者提供一个简明的指南,通过介绍一个基础的机器学习项目——预测房价——来揭示机器学习的神秘面纱。我们将从数据收集开始,逐步深入到数据处理、模型选择、训练和评估等环节。通过实际操作,你将学会如何利用Python及其强大的科学计算库来实现自己的机器学习模型。无论你是编程新手还是有一定经验的开发者,这篇文章都将为你打开一扇通往机器学习世界的大门。
|
2月前
|
机器学习/深度学习 人工智能 算法
探索机器学习的奥秘:从理论到实践
【8月更文挑战第23天】在这篇文章中,我们将深入探讨机器学习的世界,从基础理论到实际应用。我们将了解机器学习的基本概念,探索不同类型的机器学习算法,并讨论如何将这些算法应用于实际问题。无论你是初学者还是有经验的开发者,这篇文章都将为你提供有价值的见解和知识。让我们一起踏上这段激动人心的旅程吧!
|
26天前
|
机器学习/深度学习 人工智能 算法
探索人工智能:机器学习的基本原理与Python代码实践
【9月更文挑战第6天】本文深入探讨了人工智能领域中的机器学习技术,旨在通过简明的语言和实际的编码示例,为初学者提供一条清晰的学习路径。文章不仅阐述了机器学习的基本概念、主要算法及其应用场景,还通过Python语言展示了如何实现一个简单的线性回归模型。此外,本文还讨论了机器学习面临的挑战和未来发展趋势,以期激发读者对这一前沿技术的兴趣和思考。
|
2月前
|
C# 机器学习/深度学习 搜索推荐
WPF与机器学习的完美邂逅:手把手教你打造一个具有智能推荐功能的现代桌面应用——从理论到实践的全方位指南,让你的应用瞬间变得高大上且智能无比
【8月更文挑战第31天】本文详细介绍如何在Windows Presentation Foundation(WPF)应用中集成机器学习功能,以开发具备智能化特性的桌面应用。通过使用Microsoft的ML.NET框架,本文演示了从安装NuGet包、准备数据集、训练推荐系统模型到最终将模型集成到WPF应用中的全过程。具体示例代码展示了如何基于用户行为数据训练模型,并实现实时推荐功能。这为WPF开发者提供了宝贵的实践指导。
29 0

相关产品

  • 人工智能平台 PAI
  • 下一篇
    无影云桌面