《Python和HDF 5大数据应用》—2.3 HDF5工具

简介:

本节书摘来自异步社区《Python和HDF 5大数据应用》一书中的第2章,第2.3节,作者[美]Andrew Collette(科莱特),胡世杰 译,更多章节内容可以访问云栖社区“异步社区”公众号查看。

2.3 HDF5工具

在后续章节里,我们将创建大量的文件,需要一种方法能够独立地查看其中的内容。特别是当你需要将文件归档或者共享给其他同事的时候,对错误数据类型的检查是越早越好。

2.3.1 HDFView

HDFView是HDF组织提供的一个免费的图形界面HDF5文件浏览器。虽然功能比较简单,但它是用Java写的,所以在Windows、Linux和Mac上都可以使用。它有一个内建的表格样式的数据浏览器,也能进行基本的绘图功能。

图2-2显示了一个HDF5文件的内容。左边的面板上列出了多个组。组1被打开,并显示了其包含的数据集。其中一个数据集又被打开,其内容被显示在右边的表格视图上。


screenshot

HDFView还允许你查看数据集和组的特征。基本上只要是HDF5支持的数据类型它都支持,除了某些长度可变的数据结构。

2.3.2 ViTables

ViTables是另一个免费的图形界面浏览器,图2-3显示了同一个HDF5文件在ViTables上打开的界面。它为PyTables文件做了优化,不过也能完美处理原生的HDF5文件。ViTables的一大优势在于它是随着某些版本的Python打包安装的,比如PythonXY,所以你可能已经拥有它了。


screenshot

2.3.3 命令行工具

如果你已经习惯了命令行,那一定要安装HDF命令行工具。基本上所有的包管理器都可以帮你安装它,如若不然,你可以在http://www.hdfgroup.org 上下载。连Windows版的都有。

本书多处用到了一个名字叫h5ls的程序,它可以列出HDF5文件的内容。下例用h5ls列出了一个HDF5文件包含的多个数据集和一个组:


screenshot

我们可以用-vlr选项来打印一些额外信息并递归地打印组的成员:


screenshot

这个格式有点用了,我们可以看到array数据集内的对象的类型是本地整型,且是一个有10个元素的1维数组。同样,在group组内有一个2维的subarray数据集,对象类型也是本地整型。

查看元数据像这样用h5ls就足够了。还有一个叫做h5dump的程序,它以更为清晰的格式打印出数据。


screenshot

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
6月前
|
存储 分布式计算 大数据
基于Python大数据的的电商用户行为分析系统
本系统基于Django、Scrapy与Hadoop技术,构建电商用户行为分析平台。通过爬取与处理海量用户数据,实现行为追踪、偏好分析与个性化推荐,助力企业提升营销精准度与用户体验,推动电商智能化发展。
|
6月前
|
数据可视化 关系型数据库 MySQL
基于python大数据的的海洋气象数据可视化平台
针对海洋气象数据量大、维度多的挑战,设计基于ECharts的可视化平台,结合Python、Django与MySQL,实现数据高效展示与交互分析,提升科研与决策效率。
|
7月前
|
监控 数据可视化 数据挖掘
Python Rich库使用指南:打造更美观的命令行应用
Rich库是Python的终端美化利器,支持彩色文本、智能表格、动态进度条和语法高亮,大幅提升命令行应用的可视化效果与用户体验。
611 0
|
6月前
|
机器学习/深度学习 大数据 关系型数据库
基于python大数据的台风灾害分析及预测系统
针对台风灾害预警滞后、精度不足等问题,本研究基于Python与大数据技术,构建多源数据融合的台风预测系统。利用机器学习提升路径与强度预测准确率,结合Django框架实现动态可视化与实时预警,为防灾决策提供科学支持,显著提高应急响应效率,具有重要社会经济价值。
|
6月前
|
数据可视化 大数据 关系型数据库
基于python大数据技术的医疗数据分析与研究
在数字化时代,医疗数据呈爆炸式增长,涵盖患者信息、检查指标、生活方式等。大数据技术助力疾病预测、资源优化与智慧医疗发展,结合Python、MySQL与B/S架构,推动医疗系统高效实现。
|
6月前
|
机器学习/深度学习 大数据 关系型数据库
基于python大数据的青少年网络使用情况分析及预测系统
本研究基于Python大数据技术,构建青少年网络行为分析系统,旨在破解现有防沉迷模式下用户画像模糊、预警滞后等难题。通过整合多平台亿级数据,运用机器学习实现精准行为预测与实时干预,推动数字治理向“数据驱动”转型,为家庭、学校及政府提供科学决策支持,助力青少年健康上网。

推荐镜像

更多