Python 教程之 Pandas(15)—— 使用 pandas.read_csv() 读取 csv

简介: Python 教程之 Pandas(15)—— 使用 pandas.read_csv() 读取 csv

Python 是一种用于进行数据分析的出色语言,主要是因为以数据为中心的 Python 包的奇妙生态系统。Pandas 就是其中之一,它使导入和分析数据变得更加容易。

大多数用于分析的数据以表格格式的形式提供,例如 Excel 和逗号分隔文件 (CSV)。要访问 csv 文件中的数据,我们需要一个函数 read_csv() 以数据框的形式检索数据。在使用这个功能之前,我们必须导入 pandas 库。

导入 Pandas 库:

import pandas as pd

read_csv() 函数用于从 csv 文件中检索数据。read_csv() 方法的语法是:

pd.read_csv(filepath_or_buffer, sep=', ', delimiter=None, header='infer', names=None, index_col=None, 
             usecols=None, squeeze=False, prefix=None, mangle_dupe_cols=True, 
             dtype=None, engine=None, converters=None, true_values=None, false_values=None, 
             skipinitialspace=False, skiprows=None, nrows=None, na_values=None, keep_default_na=True, 
             na_filter=True, verbose=False, skip_blank_lines=True, parse_dates=False, infer_datetime_format=False, 
             keep_date_col=False, date_parser=None, dayfirst=False, iterator=False, chunksize=None, compression='infer', 
             thousands=None, decimal=b'.', lineterminator=None, quotechar='"', quoting=0, escapechar=None, comment=None, 
             encoding=None, dialect=None, tupleize_cols=None, error_bad_lines=True, warn_bad_lines=True, skipfooter=0, 
             doublequote=True, delim_whitespace=False, low_memory=True, memory_map=False, float_precision=None)

代码 #1 从 csv 文件中检索数据

# Import pandas
import pandas as pd
# 读取csv文件
pd.read_csv("filename.csv")

这是带有默认值的参数列表。并非所有这些都很重要,但记住这些实际上可以节省自己执行某些功能的时间。通过在 jupyter notebook 中按 shift + tab 可以查看任何函数的参数。下面给出了有用的和它们的用法:


  • filepath_or_buffer:这是要使用此函数检索的文件的位置。它接受文件的任何字符串路径或 URL。
  • sep:表示分隔符,默认为 ', ',如 csv(逗号分隔值)。
  • header:它接受 int、int 列表、行号用作列名和数据的开头。如果没有传递名称,即header=None,那么它将显示第一列为0,第二列显示为1,以此类推。
  • usecols:用于仅从 csv 文件中检索选定的列。
  • nrows:表示要从数据集中显示的行数。
  • index_col:如果没有,则没有索引号与记录一起显示。  
  • 挤压:如果为真且仅传递一列,则返回熊猫系列。
  • skiprows:跳过新数据框中传递的行。
  • 名称:它允许检索具有新名称的列。
范围 Use
filepath_or_buffer 文件的 URL 或目录位置
sep 代表分隔符,默认为 ', ' 如 csv(逗号分隔值)
index_col 将传递的列作为索引而不是 0、1、2、3…r   
header 将传递的 row/s[int/int list] 作为标题  
use_cols 仅使用传递的 col[string list] 来制作数据框
squeeze 如果为 true 且仅传递一列,则返回 pandas 系列
skiprows 跳过新数据框中传递的行

Code #2 :

# 导入 Pandas 库
import pandas as pd
pd.read_csv(filepath_or_buffer = "pokemon.csv")
# 使传递的行标题
pd.read_csv("pokemon.csv", header =[1, 2])
# 将传递的列作为索引而不是 0、1、2、3....
pd.read_csv("pokemon.csv", index_col ='Type')
# 仅将传递的 cols 用于数据框
pd.read_csv("pokemon.csv", usecols =["Type"])
# 如果只有一列,则返回熊猫系列
pd.read_csv("pokemon.csv", usecols =["Type"], squeeze = True)
# 跳过新系列中传递的行
pd.read_csv("pokemon.csv", skiprows = [1, 2, 3, 4])


目录
相关文章
|
3月前
|
Java 数据处理 索引
(Pandas)Python做数据处理必选框架之一!(二):附带案例分析;刨析DataFrame结构和其属性;学会访问具体元素;判断元素是否存在;元素求和、求标准值、方差、去重、删除、排序...
DataFrame结构 每一列都属于Series类型,不同列之间数据类型可以不一样,但同一列的值类型必须一致。 DataFrame拥有一个总的 idx记录列,该列记录了每一行的索引 在DataFrame中,若列之间的元素个数不匹配,且使用Series填充时,在DataFrame里空值会显示为NaN;当列之间元素个数不匹配,并且不使用Series填充,会报错。在指定了index 属性显示情况下,会按照index的位置进行排序,默认是 [0,1,2,3,...] 从0索引开始正序排序行。
317 0
|
3月前
|
Java 数据挖掘 数据处理
(Pandas)Python做数据处理必选框架之一!(一):介绍Pandas中的两个数据结构;刨析Series:如何访问数据;数据去重、取众数、总和、标准差、方差、平均值等;判断缺失值、获取索引...
Pandas 是一个开源的数据分析和数据处理库,它是基于 Python 编程语言的。 Pandas 提供了易于使用的数据结构和数据分析工具,特别适用于处理结构化数据,如表格型数据(类似于Excel表格)。 Pandas 是数据科学和分析领域中常用的工具之一,它使得用户能够轻松地从各种数据源中导入数据,并对数据进行高效的操作和分析。 Pandas 主要引入了两种新的数据结构:Series 和 DataFrame。
485 0
|
4月前
|
数据采集 存储 XML
Python爬虫技术:从基础到实战的完整教程
最后强调: 父母法律法规限制下进行网络抓取活动; 不得侵犯他人版权隐私利益; 同时也要注意个人安全防止泄露敏感信息.
799 19
|
3月前
|
索引 Python
Python 列表切片赋值教程:掌握 “移花接木” 式列表修改技巧
本文通过生动的“嫁接”比喻,讲解Python列表切片赋值操作。切片可修改原列表内容,实现头部、尾部或中间元素替换,支持不等长赋值,灵活实现列表结构更新。
156 1
|
4月前
|
数据采集 存储 JSON
使用Python获取1688商品详情的教程
本教程介绍如何使用Python爬取1688商品详情信息,涵盖环境配置、代码编写、数据处理及合法合规注意事项,助你快速掌握商品数据抓取与保存技巧。
|
5月前
|
存储 数据采集 数据处理
Pandas与NumPy:Python数据处理的双剑合璧
Pandas与NumPy是Python数据科学的核心工具。NumPy以高效的多维数组支持数值计算,适用于大规模矩阵运算;Pandas则提供灵活的DataFrame结构,擅长处理表格型数据与缺失值。二者在性能与功能上各具优势,协同构建现代数据分析的技术基石。
456 0
|
5月前
|
并行计算 算法 Java
Python3解释器深度解析与实战教程:从源码到性能优化的全路径探索
Python解释器不止CPython,还包括PyPy、MicroPython、GraalVM等,各具特色,适用于不同场景。本文深入解析Python解释器的工作原理、内存管理机制、GIL限制及其优化策略,并介绍性能调优工具链及未来发展方向,助力开发者提升Python应用性能。
350 0
|
机器学习/深度学习 数据处理 Python
从NumPy到Pandas:轻松转换Python数值库与数据处理利器
从NumPy到Pandas:轻松转换Python数值库与数据处理利器
352 1
|
数据采集 存储 数据挖掘
Python数据分析:Pandas库的高效数据处理技巧
【10月更文挑战第27天】在数据分析领域,Python的Pandas库因其强大的数据处理能力而备受青睐。本文介绍了Pandas在数据导入、清洗、转换、聚合、时间序列分析和数据合并等方面的高效技巧,帮助数据分析师快速处理复杂数据集,提高工作效率。
369 0
|
存储 数据挖掘 数据处理
Python数据分析:Pandas库的高效数据处理技巧
【10月更文挑战第26天】Python 是数据分析领域的热门语言,Pandas 库以其高效的数据处理功能成为数据科学家的利器。本文介绍 Pandas 在数据读取、筛选、分组、转换和合并等方面的高效技巧,并通过示例代码展示其实际应用。
315 2

推荐镜像

更多