阿里云天池大赛赛题解析——机器学习篇-赛题一(3)

简介: 阿里云是国内知名的云计算、大数据、人工智能技术型公司,是阿里巴巴集团最重要的技术部门。阿里云天池是阿里云面向开发者和教育行业的资源输出部门,天池大赛是国内最大规模的人工智能算法赛事,致力于汇聚全球AI精英为企业解决真实问题。自2014年至今已举办数十次行业顶级算法赛事,全球参赛开发者超过30万人。然而对于更广大的普通开发者和大学生群体来说,高规格的算法大赛仍然具有很高的门槛。本书就是针对受众最广泛的新手人群而编写的,精选阿里巴巴最典型的人工智能算法应用案例,邀请天池大赛最顶级的获奖选手联合编撰,公开那些鲜为人知的技术秘籍,力图使每一个涉足数据智能算法技术的开发者从中获益......

2 数 据 探 索

2.1 理论知识

2.1.1 变量识别

      变量识别就是对数据从变量类型、数据类型等方面进行分析。举个例子,数据如表1-2-1所示:

表1-2-1

20.jpg

      我们可以从以下方面对其进行变量识别:

1. 输入变量与输出变量

      输入变量(也称为“predictor”或“特征”)有age,workclass,education,gender,hours-per-week,occupation。

      输出变量(也称为“target”或“标签”)有 income。

2. 数据类型

      字符型数据有workclass,education,gender,occupation,income。

      数值型数据有age,hours-per-week。

3. 连续型变量与类别型变量

      连续型变量(特征)有age,hours-per-week。

      类别型变量(特征)有workclass,education,gender,occupation,income。

      说明:例中的问题属于分类问题,两个类别分别是income(收入)≤50k 和income(收入)>50k。而如果目标改为预测具体收入,则变成了一个回归问题。

2.1.2 变量分析

1. 单变量分析

      对于连续型变量,需要统计数据的中心分布趋势和变量的分布,如对表1-2-2 中的数据进行分析,其结果如图1-2-1 所示。

表1-2-2

21.jpg

22.jpg

图1-2-1 统计量和变量的分布

      对于类别型变量,一般使用频次或占比表示每一个类别的分布情况,对应的衡量指标分别是类别变量的频次(次数)和频率(占比),可以用柱形图来表示可视化分布情况。

2. 双变量分析

      使用双变量分析可以发现变量之间的关系。根据变量类型的不同,可以分为连续型与连续型、类别型与类别型、类别型与连续型三种双变量分析组合。

      (1)连续型与连续型。绘制散点图和计算相关性是分析连续型与连续型双变量的常用方法。

  • 绘制散点图:散点图的形状可以反映变量之间的关系是线性(linear)还是非线性(non-linear),图1-2-2 所示为常见的几种双变量关系对应的散点图。
  • 计算相关性:散点图只能直观地显示双变量之间的关系,但并不能说明关系的强弱,而相关性可以对变量之间的关系进行量化分析。相关性系数的公式如下:

23.jpg

      相关性系数的取值区间为[-1, 1]。当相关性系数为-1时,表示强负线性相关;当相关性系数为1时,表示强正线性相关;当相关性系数为0时,表示不相关。


25.jpg

图1-2-2 双变量关系散点图

      那么,在Python 中如何对相关性进行计算呢?举个例子,假设X=[65, 72, 78, 65, 72,70, 65,68],Y=[72, 69, 79, 69, 84, 75, 60, 73],要计算X 与Y 的相关性系数,代码如下:

import numpy as np

X = np.array([65, 72, 78, 65, 72, 70, 65, 68])

Y = np.array([72, 69, 79, 69, 84, 75, 60, 73])

np.corrcoef(X, Y)

      计算结果如下:

array([[1. , 0.64897259],

        [0.64897259, 1. ]])

      一般来说,在取绝对值后,0~0.09 为没有相关性,0.1~0.3 为弱相关,0.3~0.5 为中等相关,0.5~1.0 为强相关。

      (2)类别型与类别型。对于类别型与类别型双变量,一般采用双向表、堆叠柱状图和卡方检验进行分析。

  • 双向表:这种方法是通过建立频次(次数)和频率(占比)的双向表来分析变量之间的关系,其中行和列分别表示一个变量,如表1-2-3 所示。

表1-2-3

26.jpg

  • 堆叠柱状图:这种方法比双向表更加直观,如图1-2-3 所示。

27.jpg

图1-2-3 堆叠柱状图

  • 卡方检验:主要用于两个和两个以上样本率(构成比)及两个二值型离散变量的关联性分析,即比较理论频次与实际频次的吻合程度或拟合优度。

      以iris 数据集为例,在sklearn 库中使用卡方检验筛选与目标变量相关的特征,示例代码如下:

from sklearn.datasets import load_iris

from sklearn.feature_selection import SelectKBest

from sklearn.feature_selection import chi2

iris = load_iris()

X, y = iris.data, iris.target

chiValues = chi2(X, y)

X_new = SelectKBest(chi2, k=2).fit_transform(X, y)

      (3)类别型与连续型。在分析类别型和连续型双变量时,可以绘制小提琴图(Violin Plot),这样可以分析类别变量在不同类别时,另一个连续变量的分布情况。如图1-2-4 所示,通过绘制小提琴图,可以对比在类别变量为low,medium,high 三个不同类别时,连续变量price 的分布情况。

28.jpg

图1-2-4 小提琴图及其说明

      小提琴图结合了箱形图和密度图的相关特征信息,可以直观、清晰地显示数据的分布,常用于展示多组数据的分布及相关的概率密度。

      说明:建议使用Seaborn 包中的violinplot()函数。

相关文章
|
12月前
|
存储 缓存 网络协议
阿里云特惠云服务器99元与199元配置与性能和适用场景解析:高性价比之选
2025年,阿里云长效特惠活动继续推出两款极具吸引力的特惠云服务器套餐:99元1年的经济型e实例2核2G云服务器和199元1年的通用算力型u1实例2核4G云服务器。这两款云服务器不仅价格亲民,而且性能稳定可靠,为入门级用户和普通企业级用户提供了理想的选择。本文将对这两款云服务器进行深度剖析,包括配置介绍、实例规格、使用场景、性能表现以及购买策略等方面,帮助用户更好地了解这两款云服务器,以供参考和选择。
|
6月前
|
存储 域名解析 弹性计算
阿里云上云流程参考:云服务器+域名+备案+域名解析绑定,全流程图文详解
对于初次通过阿里云完成上云的企业和个人用户来说,很多用户不仅是需要选购云服务器,同时还需要注册域名以及完成备案和域名的解析相关流程,从而实现网站的上线。本文将以上云操作流程为核心,结合阿里云的活动政策与用户系统梳理云服务器选购、域名注册、备案申请及域名绑定四大关键环节,以供用户完成线上业务部署做出参考。
|
10月前
|
PyTorch 调度 算法框架/工具
阿里云PAI-DLC任务Pytorch launch_agent Socket Timeout问题源码分析
DLC任务Pytorch launch_agent Socket Timeout问题源码分析与解决方案
494 18
阿里云PAI-DLC任务Pytorch launch_agent Socket Timeout问题源码分析
|
10月前
|
机器学习/深度学习 人工智能 自然语言处理
阿里云人工智能平台 PAI 开源 EasyDistill 框架助力大语言模型轻松瘦身
本文介绍了阿里云人工智能平台 PAI 推出的开源工具包 EasyDistill。随着大语言模型的复杂性和规模增长,它们面临计算需求和训练成本的障碍。知识蒸馏旨在不显著降低性能的前提下,将大模型转化为更小、更高效的版本以降低训练和推理成本。EasyDistill 框架简化了知识蒸馏过程,其具备多种功能模块,包括数据合成、基础和进阶蒸馏训练。通过数据合成,丰富训练集的多样性;基础和进阶蒸馏训练则涵盖黑盒和白盒知识转移策略、强化学习及偏好优化,从而提升小模型的性能。
|
12月前
|
运维 API 开发工具
【阿里云】操作系统控制台操作体验与性能评测全解析
操作系统控制台是现代云计算环境中进行系统管理和运维的重要工具,提供系统概览、诊断、观测、管理等功能,支持API、SDK、CLI等管理方式。通过创建角色、系统配置和组件安装等操作,用户可以高效管理云端资源,提升操作系统的使用效率和稳定性。尤其适合需要高效管理操作系统的用户及学习云计算、网络管理的学生。建议增强自定义功能、优化性能报告和完善文档支持,以进一步提升用户体验。
385 21
【阿里云】操作系统控制台操作体验与性能评测全解析
|
10月前
|
缓存 并行计算 测试技术
阿里云PAI-全模态模型Qwen2.5-Omni-7B推理浅试
阿里云PAI-全模态模型Qwen2.5-Omni-7B推理浅试
2320 12
|
12月前
|
机器学习/深度学习 人工智能 Java
Java机器学习实战:基于DJL框架的手写数字识别全解析
在人工智能蓬勃发展的今天,Python凭借丰富的生态库(如TensorFlow、PyTorch)成为AI开发的首选语言。但Java作为企业级应用的基石,其在生产环境部署、性能优化和工程化方面的优势不容忽视。DJL(Deep Java Library)的出现完美填补了Java在深度学习领域的空白,它提供了一套统一的API,允许开发者无缝对接主流深度学习框架,将AI模型高效部署到Java生态中。本文将通过手写数字识别的完整流程,深入解析DJL框架的核心机制与应用实践。
729 3
|
11月前
|
人工智能 自然语言处理 运维
Qwen3 全尺寸模型支持通过阿里云PAI-ModelGallery 一键部署
Qwen3 是 Qwen 系列最新一代的大语言模型,提供了一系列密集(Dense)和混合专家(MOE)模型。目前,PAI 已经支持 Qwen3 全系列模型一键部署,用户可以通过 PAI-Model Gallery 快速开箱!
|
机器学习/深度学习 存储 搜索推荐
利用机器学习算法改善电商推荐系统的效率
电商行业日益竞争激烈,提升用户体验成为关键。本文将探讨如何利用机器学习算法优化电商推荐系统,通过分析用户行为数据和商品信息,实现个性化推荐,从而提高推荐效率和准确性。
649 14

推荐镜像

更多
  • DNS