在Python中进行数据清洗和预处理的第一步通常是加载数据。通常,我们会使用pandas
库来实现这一操作,因为它提供了高效且灵活的数据结构DataFrame,非常适合处理表格型数据。
以下是如何使用pandas从CSV文件加载数据的例子:
import pandas as pd
# 加载CSV数据
df = pd.read_csv('data.csv')
# 查看数据的前几行以确认加载是否成功
print(df.head())
pd.read_csv()
函数读取CSV文件,并将其内容转换为DataFrame对象。- 如果数据源是Excel文件,可以使用
pd.read_excel()
函数:df = pd.read_excel('data.xlsx')
- 对于其他格式如JSON、SQL数据库等,也有相应的pandas函数或方法(如
pd.read_json()
、pd.read_sql()
)来读取数据。
一旦数据加载完成,接下来就可以开始数据清洗和预处理步骤了,例如处理缺失值、去除重复值、数据类型转换、标准化/归一化数值等。以下是几个基本操作的例子:
处理缺失值
# 使用中位数填充缺失值
df.fillna(df.median(), inplace=True)
# 或者直接删除含有缺失值的行
df.dropna(inplace=True)
去除重复值
# 删除重复行
df.drop_duplicates(inplace=True)
数据类型转换
# 将某一列转换为整数类型
df['column_name'] = df['column_name'].astype(int)
请根据实际数据情况调整这些操作。