不只是快,详解geopandas新版文件读写

简介: 不只是快,详解geopandas新版文件读写

1 简介

大家好我是费老师,前不久我在一篇文章中给大家分享过geopandas在其0.11版本中为我们带来的一些重要新特性,其中提到过新的矢量读写后端,使得我们在read_file()以及to_file()中添加参数engine='pyogrio'即可获得500%的性能提升。

而新引擎带来的不仅是性能上的大幅提升,还带来了诸多实用功能以方便我们读写常见矢量文件,今天我就来给大家详细介绍这些新功能。

2 详解geopandas中的pyogrio读写引擎

geopandas0.11版本之后新增的pyogrio引擎,基于geopandas团队开发的同名Python库,其基于OGR,而OGR则是著名的开源栅格空间数据转换框架GDAL的重要分支库,专注于矢量数据的高性能转换。

2.1 基于pyogrio的矢量文件读取

对于0.11及以后版本的geopandas,向read_file()中传入engine='pyogrio'后,即可切换至底层基于pyogrio.read_dataframe()的读取引擎,获取大幅度性能提升的同时也拥有了众多的新功能参数,其中比较实用的有:

2.1.1 利用columns参数指定需要读入的字段

开启pyogrio引擎后,我们可以通过设置参数columns来读入指定的若干字段,当你的矢量文件有很多无关紧要的字段时,可以利用此特性来整洁数据以及减少读入数据的内存消耗:

2.1.2 利用read_geometry参数设置是否忽略矢量列

如果你不需要矢量文件中的矢量信息,只需要将其当作普通表格数据进行读入,开启pyogrio引擎后,设置read_geometry=False即可,所形成对象的类型也会变为普通的DataFrame

2.1.3 利用force_2d参数强制忽略z轴信息

有些情况下,矢量数据中的坐标信息带有z轴高度信息,如果分析过程中用不上该维度信息,可以在开启pyogrio引擎后设置force_2d=True强制转换为2D矢量,非常方便:

2.1.4 利用skip_features与max_features参数控制读入数据规模

在开启pyogrio引擎后,通过设置参数skip_features可以控制从数据第0行开始需要跳过的要素记录数量:

而通过设置参数max_features则可以控制最多读取多少行要素记录,当我们的矢量文件记录行很多,而我们又只想简单查看几行看看数据长什么样时,这个参数就很实用了:

2.1.5 利用参数where对矢量文件进行条件过滤

这个新特性非常实用,我们可以像写SQL查询语句那样传入我们的过滤条件,从而帮助我们在读取数据时就实现比较丰富自由的条件过滤效果,值得注意的是,针对中文等由unicode字符构成的字段名,需要将其包裹在""中进行定义,参考下图中我的做法:

2.1.6 利用sql参数在原数据上直接进行sql查询

前面我们介绍了多种用于过滤原数据的实用参数,而在在开启pyogrio引擎后还有个非常实用的参数sql,可以帮助我们直接书写SQL语句对原数据进行提取(注意,其执行顺序先于上述其他过滤类参数):

但要注意的是,目前pyogrio引擎的sql参数,在读取诸如含有中文等unicode字符信息的shapefile文件时,不能正常的解析内容,而针对GeoJSONgpkg等其他格式矢量文件时则一切正常:

  • GeoJSON文件正常

  • gpkg文件正常

  • shapefile文件乱码,亲测即使指定encoding也无效

所以现阶段建议读取shapefile文件时,可以使用columns+where的组合方式代替sql以实现同样的效果。

2.2 基于pyogrio的矢量文件写出

相较于文件的读取,新引擎中涉及文件写出的功能参数就寡淡很多,只发现一个比较特别的promote_to_multi参数,用于强制将单部件要素转换为多部件要素:

2.3 pyogrio引擎支持的所有矢量文件类型

你可以通过pyogrio.list_drivers()查看新引擎所支持的全部矢量文件格式,基本上只有你想不到没有它覆盖不到😂:

相关文章
|
数据挖掘 数据建模 索引
【50个Pandas高级操作】(上)
【50个Pandas高级操作】
103 0
|
3月前
|
NoSQL 数据挖掘 定位技术
如何让geopandas支持写出gdb文件
如何让geopandas支持写出gdb文件
|
3月前
|
NoSQL Linux Windows
geopandas直接支持gdb文件写出与追加
geopandas直接支持gdb文件写出与追加
|
3月前
|
SQL Serverless 数据库
Pandas学习笔记之常用功能
Pandas学习笔记之常用功能
|
3月前
|
SQL 关系型数据库 数据库
利用geopandas与PostGIS进行交互
利用geopandas与PostGIS进行交互
|
3月前
|
定位技术 API Python
geopandas 0.14版本重要更新内容一览
geopandas 0.14版本重要更新内容一览
geopandas 0.13版本更新内容一览
geopandas 0.13版本更新内容一览
|
3月前
|
API Python
geopandas 0.9.0重要新特性一览
geopandas 0.9.0重要新特性一览
|
存储 SQL 大数据
Pandas DataFrame 数据存储格式比较
Pandas 支持多种存储格式,在本文中将对不同类型存储格式下的Pandas Dataframe的读取速度、写入速度和大小的进行测试对比。
229 0
|
12月前
|
存储 数据处理 Python
官方推荐:6种Pandas读取Excel的方法
官方推荐:6种Pandas读取Excel的方法
下一篇
无影云桌面