HDF5文件的读取与储存| 学习笔记

简介: 快速学习 HDF5文件的读取与储存

开发者学堂课程【Python 数据分析库 Pandas 快速入门HDF5文件的读取与储存学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/607/detail/8857


HDF5文件的读取与储存


内容介绍:

一、读取 hdf5 文件

二、储存 hdf5 文件

三、优先选择使用 hdf5 文件存储


HDF5 文件的读取和存储需要指定一个键,值为要存储的 DataFrame

HDF5 存储3维数据的文件

key1 dataframe1 二维数据

key2 dataframe2 二维数据


读取 hdf5文件

pd.read_hdf(path, key = )

path:文件的路径

key:读取的建

案例:

In:

day_close = pd.read_hdf( "  . /stock_data/day/day_close.h5")

 //在API中是有key的,读取成功

day_close

Out:


存储hdf5文件

df.to_hdf(path, key = )

案例:

In:

day_close.to_hdf( "test.h5" )  

//不加 key,报错

Out:

TypeError : to_hdf ( ) missing 1 required positional argument: 'key'

In:

day_close.to_hdf( "test.h5",key = “close” )

 //储存成功

pd.read_hdf ( "test.h5" )  //此时不加 key 也可以,加上 key 输出相同

In:

day_open = pd.read_hdf( " ./stock_data/day/day_open.h5" )

day_open.to_hdf ( "test.h5" , key="open" )

pd.read_hdf ( "test.h5 " )

 //此时文件中有两个 key,运行就会报错,系统不知道要读哪个 key

Out:

valueError: key must be provided when HDF5 file contains multiple datasets.

In:

pd.read_hdf ( "test.h5 ", key = “open” )

 //此时就会输出成功

如果读取的时候出现错误:

ImportErrorv RDFStore requires PyTables。“No module named ‘tables’ " problem importing

是因为没有装“tables”这个库,这个库就是用来支持读取 HDF5 文件的。


优先选择使用 hdf5文件存储

1.HDF5 在存储的是支持压缩,使用的方式是 blosc,这个是速度最快的也是 pandas 默认支持的。

2.使用压缩可以提高磁盘利用率,节省空间。

3.·HDF5 还是跨平台的,可以轻松迁移到 hadoop  上面。

相关文章
|
存储 关系型数据库 MySQL
简述MySQL数据库中九种基本对象的定义
简述MySQL数据库中九种基本对象的定义。
496 0
|
编译器 Linux C++
【C++ 跨平台开发 】掌握 C++ 跨平台关键宏的使用
【C++ 跨平台开发 】掌握 C++ 跨平台关键宏的使用
315 3
|
数据挖掘
【SPSS】回归分析详细操作教程(附案例实战)(下)
【SPSS】回归分析详细操作教程(附案例实战)
2029 0
成功解决OSError: Unable to open file (truncated file: eof = 8388608, sblock->base_addr = 0, stored_eof =
成功解决OSError: Unable to open file (truncated file: eof = 8388608, sblock->base_addr = 0, stored_eof =
成功解决OSError: Unable to open file (truncated file: eof = 8388608, sblock->base_addr = 0, stored_eof =
|
12月前
|
存储 监控 调度
云服务器成本优化深度解析与实战案例
本文深入探讨了云服务器成本优化的策略与实践,涵盖基本原则、具体策略及案例分析。基本原则包括以实际需求为导向、动态调整资源、成本控制为核心。具体策略涉及选择合适计费模式、优化资源配置、存储与网络配置、实施资源监控与审计、应用性能优化、利用优惠政策及考虑多云策略。文章还通过电商、制造企业和初创团队的实际案例,展示了云服务器成本优化的有效性,最后展望了未来的发展趋势,包括智能化优化、多云管理和绿色节能。
|
Java Shell Windows
java Runtime.exec()执行shell/cmd命令:常见的几种陷阱与一种完善实现
java Runtime.exec()执行shell/cmd命令:常见的几种陷阱与一种完善实现
292 1
|
存储 测试技术 API
Pandas 2.2 中文官方教程和指南(十·一)(4)
Pandas 2.2 中文官方教程和指南(十·一)
703 2
|
存储 Python
Python装饰器2-__call__方法与类装饰器
__call__方法、创建类装饰器、装饰器的应用场景
Python装饰器2-__call__方法与类装饰器
|
存储 数据可视化 vr&ar
【视频】Python和R语言使用指数加权平均(EWMA),ARIMA自回归移动平均模型预测时间序列
【视频】Python和R语言使用指数加权平均(EWMA),ARIMA自回归移动平均模型预测时间序列
Dataset之IMDB影评数据集:IMDB影评数据集的简介、下载、使用方法之详细攻略
Dataset之IMDB影评数据集:IMDB影评数据集的简介、下载、使用方法之详细攻略