
我们要解决的问题如下:
已知鸢尾花iris分为三个不同的类型:山鸢尾花Setosa、变色鸢尾花Versicolor、韦尔吉尼娅鸢尾花Virginica,这个分类主要是依据鸢尾花的花萼长度、宽度和花瓣的长度、宽度四个指标(也可能还有其他参考)。我们并不知道具体的分类标准,但是植物学家已经为150朵不同的鸢尾花进行了分类鉴定,我们也可以对每一朵鸢尾花进行准确测量得到花萼花瓣的数据。
那么问题来了,你女朋友家的一株鸢尾花开花了,她测量了一下,花萼长宽花瓣长宽分别是3.1、2.3、1.2、0.5,然后她就问你:“我家这朵鸢尾花到底属于哪个分类?”
一、检查数据
数据格式有无问题?
数据数值有无问题?
数据是否需要修复和删除?

表格说明:横行属于一朵花的数据
Sepal length/width:花萼的长度/宽度数据
Petal length/width:花瓣的长度/宽度数据
class:植物学家鉴定的花的类型
import seaborn as sns
import numpy as np
import pandas as pd
import matplotlib as mpl
import matplotlib.pyplot as plt
%matplotlib inline
plt.rcParams['font.sans-serif']=['Microsoft YaHei'] # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus']=False # 用来正常显示负号
from datetime import datetime
plt.figure(figsize=(16,10))
import pyecharts.options as opts
from pyecharts.charts import Line
from pyecharts.faker import Faker
from pyecharts.charts import Bar
import os
from pyecharts.options.global_options import ThemeType
iris_data=pd.read_csv("iris.csv",na_values='NA') # na_values:在读取的时候直接将空值赋值为NA
iris_data.head()
# 使用pairpoint进行检查,看看原始的数据是否有问题
sns.pairplot(iris_data.dropna())

sns.pairplot(iris_data.dropna(),hue='class')# hue='class' 按照class进行分类

二、清理数据
# 3 对数据进行修正
cond=(iris_data['class']=='Iris-setosa') & (iris_data['sepal_width']<2.5)
iris_data.loc[cond]
iris_data.loc[iris_data['class']=='versicolor','class']='Iris-versicolor'
iris_data.loc[iris_data['class']=='Iris-setossa','class']='Iris-setosa'
sns.pairplot(iris_data.dropna(),hue='class')
此时经过修正完之后,就只有三类数据了

显示图片:
from PIL import Image
img = Image.open('test.jpg')
plt.imshow(img)
plt.show()

1、对缺失值NAN进行修正
# 对缺失值NAN进行修正(找出所有字段的缺失值)
iris_data.loc[
(iris_data['sepal_width'].isnull()) |
(iris_data['sepal_length'].isnull()) |
(iris_data['petal_width'].isnull()) |
(iris_data['petal_length'].isnull())
]
找到的异常值:

# 使用mean均值对nan进行替换
irissetosa=iris_data['class']=='Iris-setosa'
irissetosa
avgpetalwd=iris_data.loc[irissetosa,'petal_width'].mean()
avgpetalwd
iris_data.loc[irissetosa & (iris_data['petal_width'].isnull()),'petal_width']=avgpetalwd

2、对sepal_width异常数据进行纠正

分析:有图中该异常点的颜色可知,该数据是属于Iris-setosa
,找到异常数据之后,填充为均值即可。

通过切片方式找到这个异常点:
cond=(iris_data['class']=='Iris-setosa') & (iris_data['sepal_width']<2.0)
iris_data.loc[cond]

接下来寻找sepal_width
的均值:

对异常值赋值为均值:
iris_data.loc[irissetosa & (cond),'sepal_width']=avgpetalwd
此时就没有异常数据了:

在来看看图片,如下图,异常点就消失了:
