DC学院学习笔记(十三):探索性数据分析实践

简介: 探索性数据分析实践:画几个图瞅瞅长得啥样

还是用iris数据集举例,一起来完成对它的探索性数据分析吧!(也就是画个图,瞅瞅长的啥样子

import pandas
iris = pandas.read_csv('http://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data')
iris.columns=['sepal_length','sepal_width','petal_length','petal_width','species']

绘图的基本指令

先画图初步了解一下数据的样子

import seaborn
%matplotlib inline
seaborn.countplot(x="species",data=iris)

output_3_1

可以看出三类别的花是很平均的,每种各占50个

seaborn.barplot(x='species',y='petal_length',data=iris)

output_5_1

setosa这种花的花瓣长度明显小于其他两种

seaborn.boxplot(x='species',y='petal_length',data=iris)

output_7_1

这样就更清楚了,甚至我们可以通过花瓣长度这样一种指标来在我们的150个训练集中区别出setosa这种花

seaborn.distplot(iris['petal_width'])

output_9_1

分类绘图

#Pandas库对类别进行选取,然后进行画图
iris_vir=iris[iris.species == 'Iris-virginica']
iris_s=iris[iris.species == 'Iris-setosa']
iris_ver=iris[iris.species =='Iris-versicolor']
#参数赋值,加上label&图例&设置坐标轴范围,xlim设置x轴范围,ylim设置y轴范围
seaborn.distplot(iris_vir['petal_width'],label='vir').set(ylim=(0,15))
seaborn.distplot(iris_s['petal_width'],label='s')
seaborn.distplot(iris_ver['petal_width'],label='ver').legend()

output_11_1

#FacetGrid 从数据集不同的侧面进行画图,hue指定用于分类的字段,使得代码会更加简洁
g=seaborn.FacetGrid(iris,hue='species')
g.map(seaborn.distplot,'petal_width').add_legend()

output_12_1

#尝试修改row/col参数,替代hue参数,row:按行展示,col:按列展示
g=seaborn.FacetGrid(iris,row='species')
g.map(seaborn.distplot,'petal_width').add_legend()

output_13_1

#画出线性回归的曲线
seaborn.regplot(x='petal_width',y='petal_length',data=iris)

output_14_1

#分类画线性回归
g = seaborn.FacetGrid(iris,hue='species')
#设置坐标轴范围
g.set (xlim=(0,2.5))
g.map(seaborn.regplot,'petal_width','petal_length').add_legend()

output_15_1

#不显示拟合曲线,用matplotlib画散点图
import matplotlib.pyplot as plt
g = seaborn.FacetGrid(iris,hue='species')
g.map(plt.scatter,'petal_width','petal_length').add_legend()

output_16_1

ok,这样就完成了我们对iris数据集的探索性数据分析,也就是画图瞅瞅长得啥样。

目录
相关文章
|
1月前
|
数据可视化 数据挖掘 数据处理
Python在数据分析中的应用实践
【2月更文挑战第13天】 本文旨在探讨Python语言在当前数据驱动时代的核心应用之一——数据分析领域的实践方法和技术。Python,作为一种高级编程语言,因其简洁的语法、强大的库支持以及广泛的社区资源,已成为数据科学家和分析师首选的工具之一。文章首先简要介绍Python及其在数据分析中的优势,随后深入讲解使用Python进行数据处理、分析、可视化的关键技术,包括但不限于Pandas库的数据处理、Matplotlib和Seaborn库的数据可视化技术,以及SciPy和Scikit-learn库在数据分析中的应用。通过具体案例,展示Python如何有效地解决实际数据分析问题,最终旨在为读者提供一
20 2
|
1月前
|
数据采集 数据挖掘 大数据
Python在数据分析中的应用及实践
【2月更文挑战第13天】 本文旨在探讨Python语言在数据分析领域的广泛应用及其实践方法。通过深入浅出的方式,介绍Python在处理、分析大数据时的核心库和工具,如Pandas、NumPy、Matplotlib等,并通过一个实际案例来展示这些工具如何协同工作,解决数据分析中遇到的常见问题。文章不仅为读者提供了一个学习和应用Python进行数据分析的起点,也通过案例分析,展示了Python在数据处理能力上的强大与灵活性,旨在激发读者对Python数据分析深入学习和研究的兴趣。
|
2月前
|
数据采集 存储 数据可视化
Python数据分析从入门到实践
Python数据分析从入门到实践
|
2月前
|
数据可视化 算法 数据挖掘
探索Python在数据分析中的应用
在这篇文章中,我们将深入探讨Python语言在数据分析领域的强大应用。Python,作为一门简洁、易学且功能强大的编程语言,已经成为数据科学家和分析师的首选工具之一。本文不仅会介绍Python在数据处理、清洗、分析和可视化方面的关键库,如Pandas、NumPy、Matplotlib和Seaborn,而且还会通过实际案例展示这些库如何被用于解决实际问题。我们的目标是为读者提供一个清晰的指南,帮助他们理解Python在数据分析中的潜力,并鼓励他们开始自己的数据分析项目。
|
6天前
|
数据采集 数据可视化 数据挖掘
Seaborn在数据分析中的应用:案例分析与实践
【4月更文挑战第17天】本文介绍了Seaborn在数据分析中的应用,它是一个基于Python的可视化库,简化了复杂数据的图表创建。通过一个销售数据分析的案例,展示了数据加载、描述性统计、相关性分析、多变量分析及高级可视化步骤。实践技巧包括数据清洗、图表选择、颜色使用、注释标签和交互性。Seaborn助力高效数据探索和理解,提升分析效率。注意,实际使用需根据数据集和目标调整,并参考最新文档。
|
1月前
|
数据采集 机器学习/深度学习 数据可视化
探索性数据分析
探索性数据分析
18 1
|
1月前
|
数据采集 数据挖掘 数据处理
Python在数据分析中的应用实践
【2月更文挑战第12天】 本文深入探讨了Python语言在数据分析领域的应用,通过介绍Python的几个关键数据分析库(Pandas、NumPy、Matplotlib)的基本使用方法和案例实践,展示了Python处理数据的强大能力。不同于传统的摘要,本文旨在通过实际操作案例,让读者能够直观感受到Python在数据分析中的实际应用价值,从而激发读者进一步探索Python数据分析能力的兴趣。
|
2月前
|
机器学习/深度学习 数据可视化 数据挖掘
Python数据分析:从入门到实践
Python数据分析:从入门到实践
|
2月前
|
数据采集 数据挖掘 大数据
Python 数据分析中的数据清洗技巧与实践
【2月更文挑战第1天】数据分析是当下热门的技术领域之一,而数据清洗作为数据分析过程中至关重要的一环,往往被人们忽视。本文将深入探讨在 Python 环境下进行数据清洗的关键技巧与实际操作,帮助读者提升数据分析的效率与准确性。
|
2月前
|
数据采集 机器学习/深度学习 数据可视化
探索Python在数据分析中的应用
本文深入探讨了Python语言在数据分析领域的强大应用能力。随着大数据时代的到来,数据分析已成为企业决策不可或缺的一部分。Python,作为一种高级编程语言,以其简洁的语法、强大的库支持和广泛的社区资源,在数据处理、分析及可视化方面展现出独特的优势。文章首先介绍了Python在数据分析中的主要应用场景,随后详细阐述了几个关键的Python库(如Pandas、NumPy、Matplotlib等)的功能和使用方法,最后通过一个实际案例展示了如何利用Python进行有效的数据分析。通过本文,读者将能够理解Python在数据分析领域的重要性,掌握其基本应用方法,并激发进一步深入学习的兴趣。
18 0