第一步:导入数据
一般来说,我们的数据都是从外部导入的,我们接触的最多的数据格式是CSV、Excel、xml。它们可以这么导入:
import pandas as pd pd.read_csv("/file.csv") # 导入csv格式的数据 pd.read_excel("/file.excel") # 导入excel格式的数据 pd.read_xml("/file.excel") # 导入xml格式的数据
如果处理的是sklearn包中自带的糖尿病数据
data_diabetes = load_diabetes() data_diabetes
第二步:构建数据集,观察数据特点
从第一步中观察数据集的组成,我们可以将其分别提取出来,构成一个新的数据集合
(这里数据集指的是pandas中的DataFrame)
# 构建数据集 data = data_diabetes['data'] target = data_diabetes['target'] feature_names = data_diabetes['feature_names'] df = pd.DataFrame(data,columns=feature_names) df['target'] = target
观察数据,这步很重要
df.head(10) df.info()
这些信息是由 pandas 库中 DataFrame.info() 方法自动生成的,用于描述数据框的列信息。具体来说,每一列都会显示以下信息:
- Column:列名;
- Non-Null Count:非空值的数量;
- Dtype:数据类型。