Python 教程之 Pandas(15)—— 使用 pandas.read_csv() 读取 csv

简介: Python 教程之 Pandas(15)—— 使用 pandas.read_csv() 读取 csv

Python 是一种用于进行数据分析的出色语言,主要是因为以数据为中心的 Python 包的奇妙生态系统。Pandas 就是其中之一,它使导入和分析数据变得更加容易。

大多数用于分析的数据以表格格式的形式提供,例如 Excel 和逗号分隔文件 (CSV)。要访问 csv 文件中的数据,我们需要一个函数 read_csv() 以数据框的形式检索数据。在使用这个功能之前,我们必须导入 pandas 库。

导入 Pandas 库: 

import pandas as pd

read_csv() 函数用于从 csv 文件中检索数据。read_csv() 方法的语法是:

pd.read_csv(filepath_or_buffer, sep=', ', delimiter=None, header='infer', names=None, index_col=None, 
             usecols=None, squeeze=False, prefix=None, mangle_dupe_cols=True, 
             dtype=None, engine=None, converters=None, true_values=None, false_values=None, 
             skipinitialspace=False, skiprows=None, nrows=None, na_values=None, keep_default_na=True, 
             na_filter=True, verbose=False, skip_blank_lines=True, parse_dates=False, infer_datetime_format=False, 
             keep_date_col=False, date_parser=None, dayfirst=False, iterator=False, chunksize=None, compression='infer', 
             thousands=None, decimal=b'.', lineterminator=None, quotechar='"', quoting=0, escapechar=None, comment=None, 
             encoding=None, dialect=None, tupleize_cols=None, error_bad_lines=True, warn_bad_lines=True, skipfooter=0, 
             doublequote=True, delim_whitespace=False, low_memory=True, memory_map=False, float_precision=None) 

代码 #1 从 csv 文件中检索数据

# Import pandas
import pandas as pd
# 读取csv文件
pd.read_csv("filename.csv")

这是带有默认值的参数列表。并非所有这些都很重要,但记住这些实际上可以节省自己执行某些功能的时间。通过在 jupyter notebook 中按 shift + tab 可以查看任何函数的参数。下面给出了有用的和它们的用法:

  • filepath_or_buffer:这是要使用此函数检索的文件的位置。它接受文件的任何字符串路径或 URL。
  • sep:表示分隔符,默认为 ', ',如 csv(逗号分隔值)。
  • header:它接受 int、int 列表、行号用作列名和数据的开头。如果没有传递名称,即header=None,那么它将显示第一列为0,第二列显示为1,以此类推。
  • usecols:用于仅从 csv 文件中检索选定的列。
  • nrows:表示要从数据集中显示的行数。
  • index_col:如果没有,则没有索引号与记录一起显示。  
  • 挤压:如果为真且仅传递一列,则返回熊猫系列。
  • skiprows:跳过新数据框中传递的行。
  • 名称:它允许检索具有新名称的列。

image.png

Code #2 :

# 导入 Pandas 库
import pandas as pd
pd.read_csv(filepath_or_buffer = "pokemon.csv")
# 使传递的行标题
pd.read_csv("pokemon.csv", header =[1, 2])
# 将传递的列作为索引而不是 0、1、2、3....
pd.read_csv("pokemon.csv", index_col ='Type')
# 仅将传递的 cols 用于数据框
pd.read_csv("pokemon.csv", usecols =["Type"])
# 如果只有一列,则返回熊猫系列
pd.read_csv("pokemon.csv", usecols =["Type"], squeeze = True)
# 跳过新系列中传递的行
pd.read_csv("pokemon.csv", skiprows = [1, 2, 3, 4])
目录
相关文章
|
20天前
|
数据可视化 DataX Python
Seaborn 教程-绘图函数
Seaborn 教程-绘图函数
46 8
|
20天前
Seaborn 教程-主题(Theme)
Seaborn 教程-主题(Theme)
60 7
|
20天前
|
Python
Seaborn 教程-模板(Context)
Seaborn 教程-模板(Context)
47 4
|
20天前
|
数据可视化 Python
Seaborn 教程
Seaborn 教程
42 5
|
2月前
|
Python
SciPy 教程 之 Scipy 显著性检验 9
SciPy 教程之 Scipy 显著性检验第9部分,介绍了显著性检验的基本概念、作用及原理,通过样本信息判断假设是否成立。着重讲解了使用scipy.stats模块进行显著性检验的方法,包括正态性检验中的偏度和峰度计算,以及如何利用normaltest()函数评估数据是否符合正态分布。示例代码展示了如何计算一组随机数的偏度和峰度。
33 1
|
2月前
|
BI Python
SciPy 教程 之 Scipy 显著性检验 8
本教程介绍SciPy中显著性检验的应用,包括如何利用scipy.stats模块进行显著性检验,以判断样本与总体假设间的差异是否显著。通过示例代码展示了如何使用describe()函数获取数组的统计描述信息,如观测次数、最小最大值、均值、方差等。
30 1
|
2月前
|
数据采集 数据可视化 数据挖掘
深入浅出:使用Python进行数据分析的基础教程
【10月更文挑战第41天】本文旨在为初学者提供一个关于如何使用Python语言进行数据分析的入门指南。我们将通过实际案例,了解数据处理的基本步骤,包括数据的导入、清洗、处理、分析和可视化。文章将用浅显易懂的语言,带领读者一步步掌握数据分析师的基本功,并在文末附上完整的代码示例供参考和实践。
|
2月前
|
数据采集 数据可视化 数据处理
Python数据科学:Pandas库入门与实践
Python数据科学:Pandas库入门与实践
|
2月前
|
Python
SciPy 教程 之 Scipy 显著性检验 6
显著性检验是统计学中用于判断样本与总体假设间是否存在显著差异的方法。SciPy的scipy.stats模块提供了执行显著性检验的工具,如T检验,用于比较两组数据的均值是否来自同一分布。通过ttest_ind()函数,可以获取两样本的t统计量和p值,进而判断差异是否显著。示例代码展示了如何使用该函数进行T检验并输出结果。
31 1
|
2月前
|
数据采集 数据可视化 数据挖掘
Python数据分析:Pandas库实战指南
Python数据分析:Pandas库实战指南