Python之fastparquet:fastparquet的简介、安装、使用方法之详细攻略

简介: Python之fastparquet:fastparquet的简介、安装、使用方法之详细攻略

fastparquet的简介


   fastparquet是parquet格式的python实现,旨在集成到基于python的大数据工作流中。并非拼花地板格式的所有部分都已实现或测试,例如,请参阅下面链接的TODO。也就是说,fastparquet能够读取parquet compatibility项目中的所有数据文件。





fastparquet的安装


pip install -i https://pypi.tuna.tsinghua.edu.cn/simple fastparquet


image.png




fastparquet的使用方法


1、读取


您可以指定要加载哪些列,哪些列作为类别保留(如果数据使用字典编码)。文件路径可以是单个文件、指向其他数据文件的元数据文件或包含数据文件的目录(树)。后者通常由hive/spark输出。


from fastparquet import ParquetFile

pf = ParquetFile('myfile.parq')

df = pf.to_pandas()

df2 = pf.to_pandas(['col1', 'col2'], categories=['col1'])


2、写入


默认情况下,生成一个具有单个行组(即逻辑段)且不压缩的单个输出文件。目前,只支持简单的数据类型和普通编码,因此期望性能与numpy.savez公司.


from fastparquet import write

write('outfile.parq', df)

write('outfile2.parq', df, row_group_offsets=[0, 10000, 20000],

     compression='GZIP', file_scheme='hive')


相关文章
|
2月前
|
IDE 开发工具 索引
在Python中安装第三方库
在Python中安装第三方库
764 30
|
3月前
|
PyTorch Linux 算法框架/工具
pytorch学习一:Anaconda下载、安装、配置环境变量。anaconda创建多版本python环境。安装 pytorch。
这篇文章是关于如何使用Anaconda进行Python环境管理,包括下载、安装、配置环境变量、创建多版本Python环境、安装PyTorch以及使用Jupyter Notebook的详细指南。
397 1
pytorch学习一:Anaconda下载、安装、配置环境变量。anaconda创建多版本python环境。安装 pytorch。
|
20天前
|
Linux Python
Linux 安装python3.7.6
本教程介绍在Linux系统上安装Python 3.7.6的步骤。首先使用`yum`安装依赖环境,包括zlib、openssl等开发库。接着通过`wget`下载Python 3.7.6源码包并解压。创建目标文件夹`/usr/local/python3`后,进入解压目录执行配置、编译和安装命令。最后设置软链接,使`python3`和`pip3`命令生效。
|
6天前
|
人工智能 编译器 Python
python已经安装有其他用途如何用hbuilerx配置环境-附带实例demo-python开发入门之hbuilderx编译器如何配置python环境—hbuilderx配置python环境优雅草央千澈
python已经安装有其他用途如何用hbuilerx配置环境-附带实例demo-python开发入门之hbuilderx编译器如何配置python环境—hbuilderx配置python环境优雅草央千澈
python已经安装有其他用途如何用hbuilerx配置环境-附带实例demo-python开发入门之hbuilderx编译器如何配置python环境—hbuilderx配置python环境优雅草央千澈
|
2月前
|
存储 JSON 网络安全
使用 EFS 在 AWS Lambda 上安装 Python 依赖项
使用 aws lambda 时,开发人员面临的常见挑战之一是管理大型 python 依赖项。
35 1
|
2月前
|
Ubuntu Linux iOS开发
安装Python
安装 Python 是相对简单的过程,但需要根据不同的操作系统选择合适的方法。同时,合理使用虚拟环境可以更好地管理项目的依赖和环境,提高开发效率。希望这些步骤和注意事项能帮助你顺利安装 Python。
|
3月前
|
网络协议 Java Linux
PyAV学习笔记(一):PyAV简介、安装、基础操作、python获取RTSP(海康)的各种时间戳(rtp、dts、pts)
本文介绍了PyAV库,它是FFmpeg的Python绑定,提供了底层库的全部功能和控制。文章详细讲解了PyAV的安装过程,包括在Windows、Linux和ARM平台上的安装步骤,以及安装中可能遇到的错误和解决方法。此外,还解释了时间戳的概念,包括RTP、NTP、PTS和DTS,并提供了Python代码示例,展示如何获取RTSP流中的各种时间戳。最后,文章还提供了一些附录,包括Python通过NTP同步获取时间的方法和使用PyAV访问网络视频流的技巧。
568 4
PyAV学习笔记(一):PyAV简介、安装、基础操作、python获取RTSP(海康)的各种时间戳(rtp、dts、pts)
|
3月前
|
Python
Python 三方库下载安装
Python 三方库下载安装
38 1
|
3月前
|
程序员 PHP Python
Python3 简介
【10月更文挑战第8天】Python3 简介。
41 4
|
3月前
|
机器学习/深度学习 缓存 PyTorch
pytorch学习一(扩展篇):miniconda下载、安装、配置环境变量。miniconda创建多版本python环境。整理常用命令(亲测ok)
这篇文章是关于如何下载、安装和配置Miniconda,以及如何使用Miniconda创建和管理Python环境的详细指南。
663 0
pytorch学习一(扩展篇):miniconda下载、安装、配置环境变量。miniconda创建多版本python环境。整理常用命令(亲测ok)