实践!如何用阿里云的机器学习得出泰坦尼克号沉船事件中谁有更大的概率获救

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
模型训练 PAI-DLC,5000CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 阿里云机器学习平台该平台沉淀了阿里巴巴的机器学习算法体系和经验,从数据的预处理、到机器学习算法、模型的评估和预测动能。
阿里云机器学习平台是一套基于MaxCompute(阿里云分布式计算引擎)的数据挖掘、建模、预测的工具。它提供算法开发、分享、模型训练、部署、监控等一站式算法服务,用户可以通过可视化的操作界面来操作整个实验流程,同时也支持PAI命令,让用户通过命令行来操作实验。

该平台沉淀了阿里巴巴的机器学习算法体系和经验,从数据的预处理、到机器学习算法、模型的评估和预测动能。

bfe5b06a07aa441a1c24d4529d88b6a4529ceba8
操作界面


阿里云机器学习平台架构

b852748cd2c7cc5aca0d9307d795463ae18df849
阿里云机器学习平台的架构图

通过上面的架构图就可以看出,用户可以通过可视化界面实现实验的搭建服务,底层的算法和计算引擎完全解耦,数据加工人员只需要考虑每个算法的准确率和效能,无需操心底层的计算。每个算法以plugin的形式运行在MaxCompute(阿里云分布式计算引擎)上,计算结果会以可视化的方式返回并展现给用户。

8dbb76ef1440711e88376d69cf28379c9c0f4e8e
结果展示图

人人都是大数据玩家

阿里云机器学习平台的产品主要优势可以概括为以下几方面:

1.良好的交互设计

通过拖拽的方式搭配实验,并且提供了数据模型的可视化功能。缩短了用户与数据的距离,真正实现了数据的触手可及。同时也提供了命令行工具,方便用户将算法嵌入到自身的工程中。

1c785e667d98e100ae679a159f9f6abe34275fbb
操作界面

2.优质、丰富的机器学习算法

平台上边的机器学习算法都是经过阿里大规模业务锤炼的。从算法的丰富性角度来看,阿里云机器学习平台不仅提供了基础的聚类、回归等机器学习算法,也提供了文本分析、特征处理的算法。

b3ce8b766145f6230edfd9a2e0daa4ea42375499
算法框架

3.与阿里系的融合

使用阿里云机器学习平台计算的模型直接存储在MaxCompute上,可以配合其它阿里云的产品组件加以利用。

918ea138e895e10ec0c2993b5ad9a163aa90f8cf
阿里云数加产品图

4.优质的技术保障

阿里云机器学习算法平台的背后是阿里巴巴IDST的算法科学家和阿里云的技术保障团队,在使用过程中遇到任何问题都可以到工单系统提交工单或者直接与相关接口人联系。

0c3314480cbbcb10f3b98d9d3e8abafbdfa33537
工单系统

使用场景

阿里云机器学习平台丰富的算法和技术保障支持也给用户解决自身业务场景带来了更多的可能性和想象空间。在DT时代,通过使用阿里云机器学习平台可以真正的实现数据驱动业务的目的。因此使用场景包括:数据预处理、特征工程、机器学习模型训练、模型评估等组件来解决实际业务场景。

05c5ad93445de9d55bb8566e03e7ee2e626e7748
实验流程

这里举一个沉重但又挺有意义的例子。比如,这样的一个应用场景:泰坦尼克号沉船事件。通过分析泰坦尼克号沉船事件幸存者和丧生者的数据,判断拥有什么样的属性的人有更大的概率获救。

数据准备

22fcbd236aa9b5d3b06e247c72cbd4e89d2a5fc0
原始数据

将数据导入MaxCompute,

PassengerId:用户的ID号
Survived:乘客是否获救,“1”表示获救,“0”表示没有获救。目标队列(target)
Pclass:乘客的社会阶层,“1”表示Upper,“2”表示Middle,“3”表示Lower
Sex:乘客的性别,“1”表示男,“0”表示女
Age:乘客的年龄
sibsp:乘客在船上的配偶数量或兄弟姐妹数量
parch:乘客在船上的父母或子女数量
fare:乘客的船费
cabin:是否住在独立的房间,“1”表示是,“0”为否
embarked:表示乘客上船的码头距离泰坦尼克出发码头的距离,数值越大表示距离越远

搭建实验流程
90d6db6c7b4482440f308f672ae91a7bdbaac145
实验流程

1) 首先将数据集按照7:3进行拆分,一部分作为titanic训练集,一部分作为预测集。
2) 将数据进行标准化处理,去除量纲对于数据造成的干扰。
3) 训练数据通过逻辑回归LR算法生成模型。
4) 对预测集进行预测。
5) 通过ROC曲线和混淆矩阵来对结果进行评估。

评估结果

混淆矩阵结果

99d3a390edcabde18b932a9d7df34ac8d5e04ecf
混淆矩阵结果分析

说明:
1. 正确率:预测正确的正例个数占预测为正例的比例,即P=TP/(TP+FP); 
2. 召回率: 预测正确的正例个数占实际正例的比例,即R=TP/(TP+FN);
3. F1指标:P和R的中权调和平均,即F1=2PR/(P+R)。当F1较高时说明实验方法比较理想; 

ROC曲线评估结果

48c1dbd749d56df58aabd72d656acfb0e5c81354

ROC曲线结果分析

说明:
1. TPR=TP/(TP+FN); 
2. FPR=FP/(FP+TN); 
3. ROC曲线:
Y轴:TPR; X轴:FPR;
(0,1):FRP=0,TPR=1。FN=0,FP=0,将所有样本都正确分类; 
(1,0):即:FPR=1,TPR=0,预测结果相反,正变负,负变正; 
(0,0):FRP=TPR=0,将所有样本划分为负样本; 
(1,1):所有样本划分为正样本;
ROC曲线越接近左上角,该分类器越好; 
4. y=x,随机猜测,一半正样本,一半负样本; 
5. AUC: ROC曲线下面积,应该介于0.5~1之间。AUC 越大,分类器越好 ; 

模型分析

逻辑回归生成模型:


00ca25ab5b5c6ba2a891678c32c445fcd76b724e
模型分析

  根据Logical regression的特性,model输出的是每个特征的线性组合。3.199为常数项,不予考虑。其它系数绝对值越大说明对结果影响越大。通过这一结论得出age、sex和pclass对于结果影响最大。

  根据sigmoid函数得出负号系数的绝对值越大其结果的正例可能性越大。所以我们可以得出结论,age、pclass和sex的值越小,目标值越大。

  也就是有钱人家的女人和小孩有更大的获救概率。

  通过真实数据比对也印证了我们的分析结果:

5c5913acb25e8377fd25bb03d0b8ebc30e788c15
真实数据

相关资料

1.免费体验馆: 点此进入
2.官网入口: 点此进入
3.产品文档: 点此进入
相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
目录
相关文章
|
1月前
|
机器学习/深度学习 人工智能 算法
【AAAI 2024】再创佳绩!阿里云人工智能平台PAI多篇论文入选
阿里云人工智能平台PAI发表的多篇论文在AAAI-2024上正式亮相发表。AAAI是由国际人工智能促进协会主办的年会,是人工智能领域中历史最悠久、涵盖内容最广泛的国际顶级学术会议之一,也是中国计算机学会(CCF)推荐的A类国际学术会议。论文成果是阿里云与浙江大学、华南理工大学联合培养项目等共同研发,深耕以通用人工智能(AGI)为目标的一系列基础科学与工程问题,包括多模态理解模型、小样本类增量学习、深度表格学习和文档版面此次入选意味着阿里云人工智能平台PAI自研的深度学习算法达到了全球业界先进水平,获得了国际学者的认可,展现了阿里云人工智能技术创新在国际上的竞争力。
|
1月前
|
机器学习/深度学习 数据采集 数据处理
构建高效机器学习模型的策略与实践
【2月更文挑战第14天】 在数据驱动的时代,机器学习已成为智能系统的核心。本文将探讨构建高效机器学习模型的关键技术要素,包括数据预处理、特征工程、模型选择和调参策略等。通过实例分析,我们将展示如何优化模型性能,减少过拟合风险,并提高泛化能力。文章旨在为开发者提供实用的技术指导,帮助他们在实际项目中实现机器学习模型的高效构建与应用。
|
1月前
|
机器学习/深度学习 数据采集 监控
构建高效机器学习模型的策略与实践
【2月更文挑战第23天】 在数据科学领域,构建一个高效的机器学习模型是至关重要的。本文旨在探讨并提出一系列策略和最佳实践,以指导读者如何从数据处理到模型部署的各个阶段优化其机器学习项目。我们将重点讨论特征工程、算法选择、超参数调整以及模型评估等关键环节,并通过案例分析展示如何应对常见的挑战和误区。文章的目的是为从业者提供实用的指南,帮助他们构建出既准确又高效的机器学习系统。
|
1月前
|
机器学习/深度学习 存储 分布式计算
机器学习PAI常见问题之DLC的数据写入到另外一个阿里云主账号的OSS中如何解决
PAI(平台为智能,Platform for Artificial Intelligence)是阿里云提供的一个全面的人工智能开发平台,旨在为开发者提供机器学习、深度学习等人工智能技术的模型训练、优化和部署服务。以下是PAI平台使用中的一些常见问题及其答案汇总,帮助用户解决在使用过程中遇到的问题。
|
3天前
|
人工智能 自然语言处理 算法
阿里云PAI大模型评测最佳实践
在大模型时代,模型评测是衡量性能、精选和优化模型的关键环节,对加快AI创新和实践至关重要。PAI大模型评测平台支持多样化的评测场景,如不同基础模型、微调版本和量化版本的对比分析。本文为您介绍针对于不同用户群体及对应数据集类型,如何实现更全面准确且具有针对性的模型评测,从而在AI领域可以更好地取得成就。
|
5天前
|
机器学习/深度学习 人工智能 自然语言处理
【CVPR2024】阿里云人工智能平台PAI图像编辑算法论文入选CVPR2024
近期,阿里云人工智能平台PAI发表的图像编辑算法论文在CVPR-2024上正式亮相发表。论文成果是阿里云与华南理工大学贾奎教授领衔的团队共同研发。此次入选标志着阿里云人工智能平台PAI自主研发的图像编辑算法达到了先进水平,赢得了国际学术界的认可。在阿里云人工智能平台PAI算法团队和华南理工大学的老师学生们一同的坚持和热情下,将阿里云在图像生成与编辑领域的先进理念得以通过学术论文和会议的形式,向业界传递和展现。
|
1月前
|
自然语言处理 算法 OLAP
阿里云PAI大模型RAG对话系统最佳实践
本文为大模型RAG对话系统最佳实践,旨在指引AI开发人员如何有效地结合LLM大语言模型的推理能力和外部知识库检索增强技术,从而显著提升对话系统的性能,使其能更加灵活地返回用户查询的内容。适用于问答、摘要生成和其他依赖外部知识的自然语言处理任务。通过该实践,您可以掌握构建一个大模型RAG对话系统的完整开发链路。
|
26天前
|
人工智能 监控 开发者
阿里云PAI发布DeepRec Extension,打造稳定高效的分布式训练,并宣布开源!
阿里云人工智能平台PAI正式发布自研的 DeepRec Extension(即 DeepRec 扩展),旨在以更低成本,更高效率进行稀疏模型的分布式训练。
|
1月前
|
机器学习/深度学习 人工智能 分布式计算
阿里云机器学习PAI介绍
阿里云机器学习PAI介绍
39 1
|
1月前
|
机器学习/深度学习 人工智能 供应链
【专栏】阿里云RPA的Rap程序是自动化流程脚本,基于AI和机器学习,实现业务流程自动化
【4月更文挑战第29天】阿里云RPA的Rap程序是自动化流程脚本,基于AI和机器学习,实现业务流程自动化。具有灵活性、易用性、高效稳定和智能学习等特点。广泛应用于财务、人力资源、客服和供应链等领域,未来将与AI深度融合,跨平台应用,行业定制化,并构建完善生态,助力企业效率提升和创新。

热门文章

最新文章

相关产品

  • 人工智能平台 PAI