阿里云天池大赛赛题解析——机器学习篇-赛题一(3)

本文涉及的产品
云解析DNS,个人版 1个月
全局流量管理 GTM,标准版 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
简介: 阿里云是国内知名的云计算、大数据、人工智能技术型公司,是阿里巴巴集团最重要的技术部门。阿里云天池是阿里云面向开发者和教育行业的资源输出部门,天池大赛是国内最大规模的人工智能算法赛事,致力于汇聚全球AI精英为企业解决真实问题。自2014年至今已举办数十次行业顶级算法赛事,全球参赛开发者超过30万人。然而对于更广大的普通开发者和大学生群体来说,高规格的算法大赛仍然具有很高的门槛。本书就是针对受众最广泛的新手人群而编写的,精选阿里巴巴最典型的人工智能算法应用案例,邀请天池大赛最顶级的获奖选手联合编撰,公开那些鲜为人知的技术秘籍,力图使每一个涉足数据智能算法技术的开发者从中获益......

2 数 据 探 索

2.1 理论知识

2.1.1 变量识别

      变量识别就是对数据从变量类型、数据类型等方面进行分析。举个例子,数据如表1-2-1所示:

表1-2-1

20.jpg

      我们可以从以下方面对其进行变量识别:

1. 输入变量与输出变量

      输入变量(也称为“predictor”或“特征”)有age,workclass,education,gender,hours-per-week,occupation。

      输出变量(也称为“target”或“标签”)有 income。

2. 数据类型

      字符型数据有workclass,education,gender,occupation,income。

      数值型数据有age,hours-per-week。

3. 连续型变量与类别型变量

      连续型变量(特征)有age,hours-per-week。

      类别型变量(特征)有workclass,education,gender,occupation,income。

      说明:例中的问题属于分类问题,两个类别分别是income(收入)≤50k 和income(收入)>50k。而如果目标改为预测具体收入,则变成了一个回归问题。

2.1.2 变量分析

1. 单变量分析

      对于连续型变量,需要统计数据的中心分布趋势和变量的分布,如对表1-2-2 中的数据进行分析,其结果如图1-2-1 所示。

表1-2-2

21.jpg

22.jpg

图1-2-1 统计量和变量的分布

      对于类别型变量,一般使用频次或占比表示每一个类别的分布情况,对应的衡量指标分别是类别变量的频次(次数)和频率(占比),可以用柱形图来表示可视化分布情况。

2. 双变量分析

      使用双变量分析可以发现变量之间的关系。根据变量类型的不同,可以分为连续型与连续型、类别型与类别型、类别型与连续型三种双变量分析组合。

      (1)连续型与连续型。绘制散点图和计算相关性是分析连续型与连续型双变量的常用方法。

  • 绘制散点图:散点图的形状可以反映变量之间的关系是线性(linear)还是非线性(non-linear),图1-2-2 所示为常见的几种双变量关系对应的散点图。
  • 计算相关性:散点图只能直观地显示双变量之间的关系,但并不能说明关系的强弱,而相关性可以对变量之间的关系进行量化分析。相关性系数的公式如下:

23.jpg

      相关性系数的取值区间为[-1, 1]。当相关性系数为-1时,表示强负线性相关;当相关性系数为1时,表示强正线性相关;当相关性系数为0时,表示不相关。


25.jpg

图1-2-2 双变量关系散点图

      那么,在Python 中如何对相关性进行计算呢?举个例子,假设X=[65, 72, 78, 65, 72,70, 65,68],Y=[72, 69, 79, 69, 84, 75, 60, 73],要计算X 与Y 的相关性系数,代码如下:

import numpy as np

X = np.array([65, 72, 78, 65, 72, 70, 65, 68])

Y = np.array([72, 69, 79, 69, 84, 75, 60, 73])

np.corrcoef(X, Y)

      计算结果如下:

array([[1. , 0.64897259],

        [0.64897259, 1. ]])

      一般来说,在取绝对值后,0~0.09 为没有相关性,0.1~0.3 为弱相关,0.3~0.5 为中等相关,0.5~1.0 为强相关。

      (2)类别型与类别型。对于类别型与类别型双变量,一般采用双向表、堆叠柱状图和卡方检验进行分析。

  • 双向表:这种方法是通过建立频次(次数)和频率(占比)的双向表来分析变量之间的关系,其中行和列分别表示一个变量,如表1-2-3 所示。

表1-2-3

26.jpg

  • 堆叠柱状图:这种方法比双向表更加直观,如图1-2-3 所示。

27.jpg

图1-2-3 堆叠柱状图

  • 卡方检验:主要用于两个和两个以上样本率(构成比)及两个二值型离散变量的关联性分析,即比较理论频次与实际频次的吻合程度或拟合优度。

      以iris 数据集为例,在sklearn 库中使用卡方检验筛选与目标变量相关的特征,示例代码如下:

from sklearn.datasets import load_iris

from sklearn.feature_selection import SelectKBest

from sklearn.feature_selection import chi2

iris = load_iris()

X, y = iris.data, iris.target

chiValues = chi2(X, y)

X_new = SelectKBest(chi2, k=2).fit_transform(X, y)

      (3)类别型与连续型。在分析类别型和连续型双变量时,可以绘制小提琴图(Violin Plot),这样可以分析类别变量在不同类别时,另一个连续变量的分布情况。如图1-2-4 所示,通过绘制小提琴图,可以对比在类别变量为low,medium,high 三个不同类别时,连续变量price 的分布情况。

28.jpg

图1-2-4 小提琴图及其说明

      小提琴图结合了箱形图和密度图的相关特征信息,可以直观、清晰地显示数据的分布,常用于展示多组数据的分布及相关的概率密度。

      说明:建议使用Seaborn 包中的violinplot()函数。

相关文章
|
16天前
|
弹性计算 缓存 应用服务中间件
阿里云服务器2核2G99元和2核4G199元实例规格性能及适用场景解析
2024年阿里云推出了两款云服务器,2核2G3M带宽40G ESSD Entry盘价格只要99元1年,2核4G5M带宽80G ESSD Entry盘价格只要199元1年,这两款云服务器的活动截止日期为2026年3月31日,活动期间新购、续费同价。那么这两款云服务器怎么样呢?可以用来做什么?本文将对这两款云服务器进行深度解析,包括配置介绍、实例规格、使用场景以及购买建议,以供选择参考。
阿里云服务器2核2G99元和2核4G199元实例规格性能及适用场景解析
|
1月前
|
边缘计算 Cloud Native 数据管理
【阿里云云原生专栏】云原生背景下的AIoT布局:阿里云Link平台解析
【5月更文挑战第29天】阿里云Link平台,作为阿里云在AIoT领域的核心战略,借助云原生技术,为开发者打造一站式物联网服务平台。平台支持多协议设备接入与标准化管理,提供高效数据存储、分析及可视化,集成边缘计算实现低延时智能分析。通过实例代码展示,平台简化设备接入,助力智能家居等领域的创新应用,赋能开发者构建智能生态系统。
130 3
|
6天前
|
存储 弹性计算 安全
阿里云服务器怎么样?云服务器ECS产品优势、应用场景、价格解析及常见问题参考
阿里云服务器ECS(Elastic Compute Service)是阿里云提供的性能卓越、稳定可靠、弹性扩展的IaaS(Infrastructure as a Service)级别云计算服务。把物理服务器比作买的房子,云服务器ECS,就是租赁的房子,阿里云云服务商就是管家。云服务商负责搭建机房、提供配套服务和维护,用户只需要付租金,即可“拎包入住”,无需自建机房、采购和配置硬件设施。如果不再需要云服务器,可随时“退租”(释放资源),节省成本。本文为大家解析云服务器ECS产品优势、应用场景和最新价格及常见问题。
阿里云服务器怎么样?云服务器ECS产品优势、应用场景、价格解析及常见问题参考
|
19天前
|
存储 机器学习/深度学习 编解码
深度解析阿里云服务器计算型c7与计算型c8y实例区别与选择参考
在阿里云提供的众多计算型云服务器实例规格中,计算型c7和计算型c8y实例是两款备受关注的云服务器规格。主要适用于网站应用、批量计算、视频编码等各种类型和规模的企业级应用,对于初次接触阿里云服务器的新手用户来说,可能并不是很清楚他们之间的区别,因此可能不知道怎么选择。本文将从实例的架构、处理器、存储与网络能力、使用场景、指标数据、收费标准以及实时活动价格等多个维度,对计算型c7和计算型c8y实例进行深度解析,以供参考和选择。
深度解析阿里云服务器计算型c7与计算型c8y实例区别与选择参考
|
1天前
|
存储 分布式计算 Cloud Native
《阿里云产品四月刊》—Ganos H3 地理网格能力解析与最佳实践(1)
阿里云瑶池数据库云原生化和一体化产品能力升级,多款产品更新迭代
|
1天前
|
Cloud Native 数据可视化 前端开发
《阿里云产品四月刊》—Ganos H3 地理网格能力解析与最佳实践(8)
阿里云瑶池数据库云原生化和一体化产品能力升级,多款产品更新迭代
|
11天前
|
人工智能 自然语言处理 算法
阿里云PAI大模型评测最佳实践
在大模型时代,模型评测是衡量性能、精选和优化模型的关键环节,对加快AI创新和实践至关重要。PAI大模型评测平台支持多样化的评测场景,如不同基础模型、微调版本和量化版本的对比分析。本文为您介绍针对于不同用户群体及对应数据集类型,如何实现更全面准确且具有针对性的模型评测,从而在AI领域可以更好地取得成就。
|
1天前
|
Cloud Native 网络协议 数据库
《阿里云产品四月刊》—云解析 PrivateZone 新地域
阿里云瑶池数据库云原生化和一体化产品能力升级,多款产品更新迭代
|
1天前
|
存储 监控 Cloud Native
《阿里云产品四月刊》—Ganos H3 地理网格能力解析与最佳实践(2)
阿里云瑶池数据库云原生化和一体化产品能力升级,多款产品更新迭代
|
1天前
|
SQL 编解码 Cloud Native
《阿里云产品四月刊》—Ganos H3 地理网格能力解析与最佳实践(3)
阿里云瑶池数据库云原生化和一体化产品能力升级,多款产品更新迭代

热门文章

最新文章

推荐镜像

更多