我们要解决的问题如下:
已知鸢尾花iris分为三个不同的类型:山鸢尾花Setosa、变色鸢尾花Versicolor、韦尔吉尼娅鸢尾花Virginica,这个分类主要是依据鸢尾花的花萼长度、宽度和花瓣的长度、宽度四个指标(也可能还有其他参考)。我们并不知道具体的分类标准,但是植物学家已经为150朵不同的鸢尾花进行了分类鉴定,我们也可以对每一朵鸢尾花进行准确测量得到花萼花瓣的数据。
那么问题来了,你女朋友家的一株鸢尾花开花了,她测量了一下,花萼长宽花瓣长宽分别是3.1、2.3、1.2、0.5,然后她就问你:“我家这朵鸢尾花到底属于哪个分类?”
一、检查数据
数据格式有无问题?
数据数值有无问题?
数据是否需要修复和删除?
表格说明:横行属于一朵花的数据 Sepal length/width:花萼的长度/宽度数据 Petal length/width:花瓣的长度/宽度数据 class:植物学家鉴定的花的类型
import seaborn as sns import numpy as np import pandas as pd import matplotlib as mpl import matplotlib.pyplot as plt %matplotlib inline plt.rcParams['font.sans-serif']=['Microsoft YaHei'] # 用来正常显示中文标签 plt.rcParams['axes.unicode_minus']=False # 用来正常显示负号 from datetime import datetime plt.figure(figsize=(16,10)) import pyecharts.options as opts from pyecharts.charts import Line from pyecharts.faker import Faker from pyecharts.charts import Bar import os from pyecharts.options.global_options import ThemeType
iris_data=pd.read_csv("iris.csv",na_values='NA') # na_values:在读取的时候直接将空值赋值为NA iris_data.head()
# 使用pairpoint进行检查,看看原始的数据是否有问题 sns.pairplot(iris_data.dropna())
sns.pairplot(iris_data.dropna(),hue='class')# hue='class' 按照class进行分类
二、清理数据
# 3 对数据进行修正 cond=(iris_data['class']=='Iris-setosa') & (iris_data['sepal_width']<2.5) iris_data.loc[cond]
iris_data.loc[iris_data['class']=='versicolor','class']='Iris-versicolor' iris_data.loc[iris_data['class']=='Iris-setossa','class']='Iris-setosa'
sns.pairplot(iris_data.dropna(),hue='class')
此时经过修正完之后,就只有三类数据了
显示图片:
from PIL import Image img = Image.open('test.jpg') plt.imshow(img) plt.show()
1、对缺失值NAN进行修正
# 对缺失值NAN进行修正(找出所有字段的缺失值) iris_data.loc[ (iris_data['sepal_width'].isnull()) | (iris_data['sepal_length'].isnull()) | (iris_data['petal_width'].isnull()) | (iris_data['petal_length'].isnull()) ]
找到的异常值:
# 使用mean均值对nan进行替换 irissetosa=iris_data['class']=='Iris-setosa' irissetosa avgpetalwd=iris_data.loc[irissetosa,'petal_width'].mean() avgpetalwd
iris_data.loc[irissetosa & (iris_data['petal_width'].isnull()),'petal_width']=avgpetalwd
2、对sepal_width异常数据进行纠正
分析:有图中该异常点的颜色可知,该数据是属于Iris-setosa
,找到异常数据之后,填充为均值即可。
通过切片方式找到这个异常点:
cond=(iris_data['class']=='Iris-setosa') & (iris_data['sepal_width']<2.0) iris_data.loc[cond]
接下来寻找sepal_width
的均值:
对异常值赋值为均值:
iris_data.loc[irissetosa & (cond),'sepal_width']=avgpetalwd
此时就没有异常数据了:
在来看看图片,如下图,异常点就消失了: