Python之pandas数据加载、存储

简介: Python之pandas数据加载、存储0. 输入与输出大致可分为三类:0.1 读取文本文件和其他更好效的磁盘存储格式2.2 使用数据库中的数据0.3 利用Web API操作网络资源1. 读取文本文件和其他更好效的磁盘存储格式pandas提供了一些用于将表格型数据读取为DataFrame对象的函数。1.1 pandas中的解析函数: re

Python之pandas数据加载、存储

0. 输入与输出大致可分为三类:

0.1 读取文本文件和其他更好效的磁盘存储格式
2.2 使用数据库中的数据
0.3 利用Web API操作网络资源

1. 读取文本文件和其他更好效的磁盘存储格式

pandas提供了一些用于将表格型数据读取为DataFrame对象的函数。
1.1 pandas中的解析函数:

    read_csv        从文件、URL、文件型对象中加载带分隔符的数据。默认分隔符为逗号
    read_table      从文件、URL、文件型对象中加载带分隔符的数据。默认分隔符为制表符("\t")
    read_clipboard  读取剪贴板中的数据,可以看做read_table的剪贴板版。在将网页转换为表格时很有用

    其中,read_csv、read_table使用较多。

1.2 逐块读取文本文件
    读取几行nrows
    逐块读取chunksize(行数)
1.3 将数据写到文本格式
    利用DataFrame的to_csv

2. 使用数据库中的数据

2.1 使用关系型数据库中的数据,可以使用Python SQL驱动器(PyODBC、psycopg2、MySQLdb、pymssql等)
2.2 使用非关系型数据库中的数据,如MongoDB,用其官方驱动器pymongo通过默认端口进行连接。

3. 利用Web API操作网络资源

3.1 应用lxml.html处理HTML
    步骤:
    1)利用urllib2将URL打开,然后由lxml解析得到数据流
    2)得到URL和链接文本
        使用文档根节点的findall方法以及一个XPath,以及个对象的get方法(针对URL)和text_content方法(针对显示文本)
    3)通过反复试验从文档中找到正确表格
    4)将所有步骤结合起来,将数据转换为一个DataFrame
3.2 应用lxml.objectify处理XML
    1)使用lxml.objetify解析文件
    2)通过getroot得到XML文件的根节点
3.3 使用网站通过JSOM及其他格式提供数据的公共的API
    使用requests包访问这些API
目录
相关文章
|
8月前
|
Java 数据处理 索引
(Pandas)Python做数据处理必选框架之一!(二):附带案例分析;刨析DataFrame结构和其属性;学会访问具体元素;判断元素是否存在;元素求和、求标准值、方差、去重、删除、排序...
DataFrame结构 每一列都属于Series类型,不同列之间数据类型可以不一样,但同一列的值类型必须一致。 DataFrame拥有一个总的 idx记录列,该列记录了每一行的索引 在DataFrame中,若列之间的元素个数不匹配,且使用Series填充时,在DataFrame里空值会显示为NaN;当列之间元素个数不匹配,并且不使用Series填充,会报错。在指定了index 属性显示情况下,会按照index的位置进行排序,默认是 [0,1,2,3,...] 从0索引开始正序排序行。
606 0
|
8月前
|
Java 数据挖掘 数据处理
(Pandas)Python做数据处理必选框架之一!(一):介绍Pandas中的两个数据结构;刨析Series:如何访问数据;数据去重、取众数、总和、标准差、方差、平均值等;判断缺失值、获取索引...
Pandas 是一个开源的数据分析和数据处理库,它是基于 Python 编程语言的。 Pandas 提供了易于使用的数据结构和数据分析工具,特别适用于处理结构化数据,如表格型数据(类似于Excel表格)。 Pandas 是数据科学和分析领域中常用的工具之一,它使得用户能够轻松地从各种数据源中导入数据,并对数据进行高效的操作和分析。 Pandas 主要引入了两种新的数据结构:Series 和 DataFrame。
715 0
|
11月前
|
存储 JSON API
Python与JSON:结构化数据的存储艺术
Python字典与JSON格式结合,为数据持久化提供了便捷方式。通过json模块,可轻松实现数据序列化与反序列化,支持跨平台数据交换。适用于配置管理、API通信等场景,兼具可读性与高效性,是Python开发中不可或缺的数据处理工具。
436 0
|
10月前
|
存储 数据采集 数据处理
Pandas与NumPy:Python数据处理的双剑合璧
Pandas与NumPy是Python数据科学的核心工具。NumPy以高效的多维数组支持数值计算,适用于大规模矩阵运算;Pandas则提供灵活的DataFrame结构,擅长处理表格型数据与缺失值。二者在性能与功能上各具优势,协同构建现代数据分析的技术基石。
773 0
|
数据采集 存储 NoSQL
Python爬虫Cookie管理最佳实践:存储、清理与轮换
Python爬虫Cookie管理最佳实践:存储、清理与轮换
|
存储 数据采集 数据库
Python爬虫实战:股票分时数据抓取与存储
Python爬虫实战:股票分时数据抓取与存储
|
Python
python pandas学习(一)
该代码段展示了四个主要操作:1) 删除指定列名,如商品id;2) 使用正则表达式模糊匹配并删除列,例如匹配订单商品名称1的列;3) 将毫秒级时间戳转换为带有时区调整的日期时间格式,并增加8小时以适应本地时区;4) 将列表转换为DataFrame后保存为Excel文件,文件路径和名称根据变量拼接而成。
246 3
|
存储 数据挖掘 数据处理
Python Pandas入门:行与列快速上手与优化技巧
Pandas是Python中强大的数据分析库,广泛应用于数据科学和数据分析领域。本文为初学者介绍Pandas的基本操作,包括安装、创建DataFrame、行与列的操作及优化技巧。通过实例讲解如何选择、添加、删除行与列,并提供链式操作、向量化处理、索引优化等高效使用Pandas的建议,帮助用户在实际工作中更便捷地处理数据。
528 2
|
数据采集 数据可视化 数据处理
Python数据科学:Pandas库入门与实践
Python数据科学:Pandas库入门与实践
|
机器学习/深度学习 数据处理 Python
从NumPy到Pandas:轻松转换Python数值库与数据处理利器
从NumPy到Pandas:轻松转换Python数值库与数据处理利器
452 1

推荐镜像

更多