Pandas数据存储

简介: Pandas数据存取Pandas可以存取多种介质类型数据,例如:内存、文本、CSV、JSON、HTML、Excel、HDF5、SQL等生成数据import numpy as np import pandas as pddf = pd.

Pandas数据存取

Pandas可以存取多种介质类型数据,例如:内存、文本、CSV、JSON、HTML、Excel、HDF5、SQL等

生成数据

import numpy as np 
import pandas as pd

df = pd.DataFrame(np.random.randn(1000, 4), columns = ['A', 'B', 'C', 'D'])

df.head()
A B C D
0 -0.132774 -2.420509 0.559352 -0.561248
1 1.114528 0.253100 -0.677942 0.103792
2 0.979150 0.377479 0.083386 -0.107285
3 -0.176661 0.096700 0.841432 0.124089
4 1.488258 0.209315 0.602946 0.441837
df02 = pd.date_range()

Pandas存取CSV

写入CSV

df.to_csv('foo01.csv')
# 不保存行索引
df.to_csv('foo02.csv', index=False)

读取CSV

read_csv = pd.read_csv('foo02.csv')
read_csv.head()
A B C D
0 -0.132774 -2.420509 0.559352 -0.561248
1 1.114528 0.253100 -0.677942 0.103792
2 0.979150 0.377479 0.083386 -0.107285
3 -0.176661 0.096700 0.841432 0.124089
4 1.488258 0.209315 0.602946 0.441837

读取CSV其他参数

pd.read_csv(
    'foo02.csv', # 文件名
    usecols=[0,1,2,4], # 读取指定列
    nrows=5, # 读取前几行
    encoding='GBK' # 编码,根据文本编码修改,默认utf-8,可以指定为GBK
)
A B C D
0 -0.132774 -2.420509 0.559352 NaN
1 1.114528 0.253100 -0.677942 NaN
2 0.979150 0.377479 0.083386 NaN
3 -0.176661 0.096700 0.841432 NaN
4 1.488258 0.209315 0.602946 NaN
x = pd.read_csv(
    'foo02.csv',
    parse_dates = {'timestamp': ['data','time']}, # 将两列合并解析为时间格式
    index_col = 'timestamp' # 将时间设为行索引
)
  • csv文件内有汉字等特殊符号时,csv文件编码应为utf-8(无BOM)可默认正常读取,如果编码是ANSI,加参数encoding=’GBK’
  • 数据内有逗号时,左右加英文半角双引号,可以正常解析

Pandas存取HDF5

写入HDF5

df.to_hdf('foo.h5', 'df')

从HDF5读取

pd.read_hdf('foo.h5', 'df')

Pandas存取Excel(xlsx)

写入Excel文件

df.to_excel('foo.xlsx', sheet_name='Sheet1')

从Excel文件读取

pd.read_excel('foo.xlsx', 'Sheet1', index_col=None, na_values=['NA'])
目录
相关文章
|
6月前
|
存储 SQL 数据挖掘
【源码解析】使用 Pandas 优化数据存储:深入解析 Block 合并机制
【源码解析】使用 Pandas 优化数据存储:深入解析 Block 合并机制
|
存储 SQL 大数据
Pandas DataFrame 数据存储格式比较
Pandas 支持多种存储格式,在本文中将对不同类型存储格式下的Pandas Dataframe的读取速度、写入速度和大小的进行测试对比。
259 0
|
1月前
|
数据采集 存储 数据挖掘
Python数据分析:Pandas库的高效数据处理技巧
【10月更文挑战第27天】在数据分析领域,Python的Pandas库因其强大的数据处理能力而备受青睐。本文介绍了Pandas在数据导入、清洗、转换、聚合、时间序列分析和数据合并等方面的高效技巧,帮助数据分析师快速处理复杂数据集,提高工作效率。
74 0
|
3月前
|
机器学习/深度学习 数据处理 Python
从NumPy到Pandas:轻松转换Python数值库与数据处理利器
从NumPy到Pandas:轻松转换Python数值库与数据处理利器
100 0
|
1月前
|
存储 数据挖掘 数据处理
Python数据分析:Pandas库的高效数据处理技巧
【10月更文挑战第26天】Python 是数据分析领域的热门语言,Pandas 库以其高效的数据处理功能成为数据科学家的利器。本文介绍 Pandas 在数据读取、筛选、分组、转换和合并等方面的高效技巧,并通过示例代码展示其实际应用。
45 2
|
5月前
|
数据挖掘 Python
【Python】已解决:Python pandas读取Excel表格某些数值字段结果为NaN问题
【Python】已解决:Python pandas读取Excel表格某些数值字段结果为NaN问题
544 0
|
2月前
|
机器学习/深度学习 并行计算 大数据
【Python篇】深入挖掘 Pandas:机器学习数据处理的高级技巧
【Python篇】深入挖掘 Pandas:机器学习数据处理的高级技巧
98 3
|
2月前
|
数据采集 数据挖掘 API
Python数据分析加速器:深度挖掘Pandas与NumPy的高级功能
在Python数据分析的世界里,Pandas和NumPy无疑是两颗璀璨的明星,它们为数据科学家和工程师提供了强大而灵活的工具集,用于处理、分析和探索数据。今天,我们将一起深入探索这两个库的高级功能,看看它们如何成为数据分析的加速器。
47 1
|
3月前
|
机器学习/深度学习 数据采集 监控
Pandas与Matplotlib:Python中的动态数据可视化
Pandas与Matplotlib:Python中的动态数据可视化
|
3月前
|
Python
Python:Pandas实现批量删除Excel中的sheet
Python:Pandas实现批量删除Excel中的sheet
163 0
下一篇
DataWorks