实践!如何用阿里云的机器学习得出泰坦尼克号沉船事件中谁有更大的概率获救

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
简介: 阿里云机器学习平台该平台沉淀了阿里巴巴的机器学习算法体系和经验,从数据的预处理、到机器学习算法、模型的评估和预测动能。
阿里云机器学习平台是一套基于MaxCompute(阿里云分布式计算引擎)的数据挖掘、建模、预测的工具。它提供算法开发、分享、模型训练、部署、监控等一站式算法服务,用户可以通过可视化的操作界面来操作整个实验流程,同时也支持PAI命令,让用户通过命令行来操作实验。

该平台沉淀了阿里巴巴的机器学习算法体系和经验,从数据的预处理、到机器学习算法、模型的评估和预测动能。

bfe5b06a07aa441a1c24d4529d88b6a4529ceba8
操作界面


阿里云机器学习平台架构

b852748cd2c7cc5aca0d9307d795463ae18df849
阿里云机器学习平台的架构图

通过上面的架构图就可以看出,用户可以通过可视化界面实现实验的搭建服务,底层的算法和计算引擎完全解耦,数据加工人员只需要考虑每个算法的准确率和效能,无需操心底层的计算。每个算法以plugin的形式运行在MaxCompute(阿里云分布式计算引擎)上,计算结果会以可视化的方式返回并展现给用户。

8dbb76ef1440711e88376d69cf28379c9c0f4e8e
结果展示图

人人都是大数据玩家

阿里云机器学习平台的产品主要优势可以概括为以下几方面:

1.良好的交互设计

通过拖拽的方式搭配实验,并且提供了数据模型的可视化功能。缩短了用户与数据的距离,真正实现了数据的触手可及。同时也提供了命令行工具,方便用户将算法嵌入到自身的工程中。

1c785e667d98e100ae679a159f9f6abe34275fbb
操作界面

2.优质、丰富的机器学习算法

平台上边的机器学习算法都是经过阿里大规模业务锤炼的。从算法的丰富性角度来看,阿里云机器学习平台不仅提供了基础的聚类、回归等机器学习算法,也提供了文本分析、特征处理的算法。

b3ce8b766145f6230edfd9a2e0daa4ea42375499
算法框架

3.与阿里系的融合

使用阿里云机器学习平台计算的模型直接存储在MaxCompute上,可以配合其它阿里云的产品组件加以利用。

918ea138e895e10ec0c2993b5ad9a163aa90f8cf
阿里云数加产品图

4.优质的技术保障

阿里云机器学习算法平台的背后是阿里巴巴IDST的算法科学家和阿里云的技术保障团队,在使用过程中遇到任何问题都可以到工单系统提交工单或者直接与相关接口人联系。

0c3314480cbbcb10f3b98d9d3e8abafbdfa33537
工单系统

使用场景

阿里云机器学习平台丰富的算法和技术保障支持也给用户解决自身业务场景带来了更多的可能性和想象空间。在DT时代,通过使用阿里云机器学习平台可以真正的实现数据驱动业务的目的。因此使用场景包括:数据预处理、特征工程、机器学习模型训练、模型评估等组件来解决实际业务场景。

05c5ad93445de9d55bb8566e03e7ee2e626e7748
实验流程

这里举一个沉重但又挺有意义的例子。比如,这样的一个应用场景:泰坦尼克号沉船事件。通过分析泰坦尼克号沉船事件幸存者和丧生者的数据,判断拥有什么样的属性的人有更大的概率获救。

数据准备

22fcbd236aa9b5d3b06e247c72cbd4e89d2a5fc0
原始数据

将数据导入MaxCompute,

PassengerId:用户的ID号
Survived:乘客是否获救,“1”表示获救,“0”表示没有获救。目标队列(target)
Pclass:乘客的社会阶层,“1”表示Upper,“2”表示Middle,“3”表示Lower
Sex:乘客的性别,“1”表示男,“0”表示女
Age:乘客的年龄
sibsp:乘客在船上的配偶数量或兄弟姐妹数量
parch:乘客在船上的父母或子女数量
fare:乘客的船费
cabin:是否住在独立的房间,“1”表示是,“0”为否
embarked:表示乘客上船的码头距离泰坦尼克出发码头的距离,数值越大表示距离越远

搭建实验流程
90d6db6c7b4482440f308f672ae91a7bdbaac145
实验流程

1) 首先将数据集按照7:3进行拆分,一部分作为titanic训练集,一部分作为预测集。
2) 将数据进行标准化处理,去除量纲对于数据造成的干扰。
3) 训练数据通过逻辑回归LR算法生成模型。
4) 对预测集进行预测。
5) 通过ROC曲线和混淆矩阵来对结果进行评估。

评估结果

混淆矩阵结果

99d3a390edcabde18b932a9d7df34ac8d5e04ecf
混淆矩阵结果分析

说明:
1. 正确率:预测正确的正例个数占预测为正例的比例,即P=TP/(TP+FP); 
2. 召回率: 预测正确的正例个数占实际正例的比例,即R=TP/(TP+FN);
3. F1指标:P和R的中权调和平均,即F1=2PR/(P+R)。当F1较高时说明实验方法比较理想; 

ROC曲线评估结果

48c1dbd749d56df58aabd72d656acfb0e5c81354

ROC曲线结果分析

说明:
1. TPR=TP/(TP+FN); 
2. FPR=FP/(FP+TN); 
3. ROC曲线:
Y轴:TPR; X轴:FPR;
(0,1):FRP=0,TPR=1。FN=0,FP=0,将所有样本都正确分类; 
(1,0):即:FPR=1,TPR=0,预测结果相反,正变负,负变正; 
(0,0):FRP=TPR=0,将所有样本划分为负样本; 
(1,1):所有样本划分为正样本;
ROC曲线越接近左上角,该分类器越好; 
4. y=x,随机猜测,一半正样本,一半负样本; 
5. AUC: ROC曲线下面积,应该介于0.5~1之间。AUC 越大,分类器越好 ; 

模型分析

逻辑回归生成模型:


00ca25ab5b5c6ba2a891678c32c445fcd76b724e
模型分析

  根据Logical regression的特性,model输出的是每个特征的线性组合。3.199为常数项,不予考虑。其它系数绝对值越大说明对结果影响越大。通过这一结论得出age、sex和pclass对于结果影响最大。

  根据sigmoid函数得出负号系数的绝对值越大其结果的正例可能性越大。所以我们可以得出结论,age、pclass和sex的值越小,目标值越大。

  也就是有钱人家的女人和小孩有更大的获救概率。

  通过真实数据比对也印证了我们的分析结果:

5c5913acb25e8377fd25bb03d0b8ebc30e788c15
真实数据

相关资料

1.免费体验馆: 点此进入
2.官网入口: 点此进入
3.产品文档: 点此进入
相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
目录
相关文章
|
7天前
|
机器学习/深度学习 数据采集 自然语言处理
构建高效机器学习模型的策略与实践
【4月更文挑战第30天】 在数据驱动的时代,机器学习(ML)作为一项核心技术,其应用范围和影响力日益扩大。然而,构建一个既高效又准确的机器学习模型并非易事。本文将探讨一系列实用的策略和技术,用于优化机器学习的工作流程,包括数据预处理、特征工程、模型选择、超参数调优以及模型评估等方面。通过这些策略,读者可以提升模型的性能,确保在实际应用中达到预期的准确度和效率。
|
7天前
|
机器学习/深度学习 算法 数据挖掘
利用机器学习优化数据中心能效的策略与实践
【5月更文挑战第13天】 在数据中心管理和运营的众多挑战中,能源效率优化是降低运营成本和减少环境影响的关键因素。本文旨在探讨如何应用机器学习技术来提高数据中心的能效,通过智能化的数据分析和资源管理达到节能的目的。与传统的摘要不同,本文将直接深入探讨所采用的技术手段、实施步骤以及预期效果,为读者提供一种新颖的视角。
14 4
|
2天前
|
运维 Cloud Native Serverless
【阿里云云原生专栏】阿里云云原生实践:从容器化到Serverless的无缝过渡
【5月更文挑战第20天】本文介绍了如何在阿里云上实现从容器化到Serverless的平滑过渡。首先,通过阿里云容器服务(ACK)创建和管理容器集群,部署应用。接着,利用函数计算(FC)构建Serverless架构,编写和部署函数代码。最后,借助函数工作流(Fn)进行任务编排,实现容器化应用与Serverless应用的统一管理,从而提升应用弹性和可扩展性,降低运维成本,支持企业高效数字化转型。
171 3
|
5天前
|
机器学习/深度学习 数据采集 监控
构建高效机器学习模型的策略与实践
【5月更文挑战第17天】 在当今数据驱动的时代,机器学习(ML)模型的效能成为衡量技术创新和解决实际问题能力的重要指标。本文旨在探讨构建高效机器学习模型的先进策略,并通过具体实践案例来揭示这些方法的有效性。我们将从数据处理、特征工程、模型选择、调参技巧以及模型部署等方面详细论述,旨在为读者提供一个全面而深入的视角,帮助其优化现有模型或开发新模型,以应对复杂多变的业务挑战。
11 2
|
6天前
|
机器学习/深度学习 运维 算法
利用机器学习进行异常检测的技术实践
【5月更文挑战第16天】本文探讨了利用机器学习进行异常检测的技术实践,强调了在大数据时代异常检测的重要性。机器学习通过无监督、有监督和半监督学习方法自动识别异常,常见算法包括KNN、LOF、K-means和GMM等。异常检测流程包括数据准备、特征工程、选择算法、训练模型、评估优化及部署。机器学习为异常检测提供了灵活性和准确性,但需结合具体问题选择合适方法。
|
7天前
|
机器学习/深度学习 自然语言处理 监控
利用机器学习进行情感分析:技术详解与实践
【5月更文挑战第13天】本文探讨了利用机器学习进行情感分析的方法,包括技术原理、常用算法和实践应用。情感分析涉及文本预处理(如清洗、分词和去除停用词)、特征提取(如词袋模型、TF-IDF和Word2Vec)及分类器训练(如朴素贝叶斯、SVM和RNN/LSTM)。常见情感分析算法有朴素贝叶斯、支持向量机和深度学习模型。实践中,情感分析应用于社交媒体监控、产品评论分析等领域。通过本文,读者可了解情感分析的基础知识及其应用价值。
|
7天前
|
机器学习/深度学习 人工智能 数据挖掘
【机器学习】贝叶斯统计中,“先验概率”和“后验概率”的区别?
【5月更文挑战第11天】【机器学习】贝叶斯统计中,“先验概率”和“后验概率”的区别?
|
7天前
|
安全 Devops 测试技术
深入了解阿里云云效DevOps:构建高效软件开发实践
阿里云云效DevOps,集成CI/CD与自动化测试,提升开发效率。支持持续集成确保代码质量,自动化测试加速交付,多环境及灰度发布保障安全可靠性。助团队构建高效开发实践,增强竞争力。
24 1
|
7天前
|
机器学习/深度学习
【机器学习】贝叶斯统计中,“似然”和“后验概率”有什么区别?
【5月更文挑战第11天】【机器学习】贝叶斯统计中,“似然”和“后验概率”有什么区别?
|
7天前
|
机器学习/深度学习 算法 异构计算
构建高效机器学习模型的策略与实践
【5月更文挑战第8天】 随着数据科学领域的不断进步,机器学习(ML)已成为解决复杂问题的重要工具。然而,构建一个既高效又准确的ML模型并非易事。本文将详细探讨在设计和训练机器学习模型时可以采用的一系列策略,以优化其性能和效率。我们将讨论特征工程的重要性、选择合适的算法、调整参数以及评估模型的有效性。通过这些策略,读者将能够更好地理解如何提升模型的预测能力并避免常见的陷阱。

热门文章

最新文章

相关产品

  • 人工智能平台 PAI