python处理NetCDF格式文件

简介: python处理NetCDF格式文件

ncdump可以查看NetCDF文件中的变量和属性等信息,ncview,panoply可以对NetCDF文件中的变量进行简单的可视化,如果需要对NetCDF文件进行裁剪,算术运算或者插值等操作,可以使用nco或cdo等工具。复杂的数据处理工作和二维可视化可以使用matlab,python或NCL,三维可视化可以使用VisAD,Vis5d,IDV等。

处理nc文件的工具很多,此次仅利用python来讲一下如何处理nc文件。目前Python中最受欢迎的处理NetCDF数据的库是netCDF4-python。此外,scipy.io模块也提供了NetCDF文件接口,可以用来读取NetCDF文件。

以netCDF4-python为例。以下代码给出了完整的数据读取和绘图部分

# load library
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

import cartopy.crs as ccrs
from cartopy.mpl.ticker import LongitudeFormatter, LatitudeFormatter
from cartopy.util import add_cyclic_point
from palettable.colorbrewer.diverging import RdBu_11_r 
import netCDF4 as nc

sns.set_context('talk', font_scale=1.2) # 设置图形属性

# read NetCDF file
fn = 'air.sig995.2012.nc'
data = nc.Dataset(fn, 'r') # 默认为读文件,此处 'r' 可省略

# 读取相关变量
lat = data.variables['lat'][:].data  #lat=(data.variables['lat'][:]);对比差异,外部括号
lon = data.variables['lon'][:].data
time = data.variables['time'][:].data
air = data.variables['air'][:].data

# 添加数据循环,以防止在0和360时出现白色条状
# 添加数据循环和不添加数据循环的效果见后文两张图
cycle_air, cycle_lon = add_cyclic_point(air, coord=lon)
cycle_LON, cycle_LAT = np.meshgrid(cycle_lon, lat)

projection = ccrs.PlateCarree() # 设置投影
fig, ax = plt.subplots(figsize=(16, 9), subplot_kw=dict(projection=projection))

con = ax.contourf(cycle_LON, cycle_LAT, cycle_air[0, ...], 
                 np.arange(220, 321), cmap=RdBu_11_r.mpl_colormap)

ax.coastlines(linewidth=1.5) # 添加海岸线
ax.set_xticks(np.arange(-180, 181, 60), crs=projection)
ax.set_yticks(np.arange(-90, 91, 30), crs=projection)

# 设置 ticklabels 格式
lon_formatter = LongitudeFormatter(number_format='.0f',
                                  degree_symbol='',
                                  dateline_direction_label=True)
lat_formatter = LatitudeFormatter(number_format='.0f',
                                 degree_symbol='')

ax.xaxis.set_major_formatter(lon_formatter)
ax.yaxis.set_major_formatter(lat_formatter)

# shrink 控制 colorbar 长度,pad 控制colorbar和图的距离
cb = fig.colorbar(con, shrink=0.73, pad=0.02)

# 调整 ticklabels
cb.set_ticks(np.arange(220, 321, 20))
cb.set_ticklabels(np.arange(220, 321, 20))

cb.ax.tick_params(direction='in', length=5) # 控制 colorbar tick

# 保存文件, dpi用于设置图形分辨率, bbox_inches 尽量减小图形的白色区域
fig.savefig('test.png', dpi=300, bbox_inches='tight')
上述导入的库:

numpy :用于生成标签数组

matplotlib :用于绘图

seaborn :用于设置合适的图形参数,关于seaborn见 Python简单高效的可视化神器——Seaborn

palettable :用于设置colormap

cartopy :添加地理图形信息

netCDF4 :读取netcdf格式文件

自己的示例

# -*- coding:utf-8 -*-
# @author:Ye Zhoubing
# @datetime:2022/10/17 13:46
# @software: PyCharm
from netCDF4 import Dataset
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import xlwt

file = r"C:\Users\32649\Desktop\discharge_dailyTot_1220_output.nc"

data = Dataset(file, 'r') # 读取nc文件,默认就是读,这里r可以省略

# print(data) # 可以查看到变量
# 读取相关变量
lat = data.variables['lat'][:].data  # 读取纬度
lon = data.variables['lon'][:].data  # 读取经度
time = data.variables['time'][:].data   # 读取时间
discharge = data.variables['discharge'][:].data   # 读取流量,流量discharge三维,分别为层数(时间),纬度、经度

# """绘图,在这里会出现一些问题,NaN影响结果,单位达到10的20次方,显然是不可能的"""
# # 用matlab绘图
# # plt对流量discharge作图
# plt.contourf(lon, lat, discharge[10, :, :]) # 绘制第10层的discharge图
# plt.colorbar(label="discharge", orientation="horizontal") # orientation="horizontal" 表示水平放置
# plt.show()

# 提取出某个格点的流量,假设77 156(即78 157)
start_date = "20120101"
end_date = "20201231"
X = pd.date_range(start_date, end_date).strftime("%Y-%m-%d").tolist() # to_list()将ndarray转换为list,np.round()指定保留小数
# 注意,下面的Y保留两位小数后转换为数组时不要写tolist(),要写list()
"""
直接使用Y = list(np.round(discharge[:, 77, 156],2))会有问题,保存的列表的元素是ndarray,而tolist()保留两位小数会失效
"""
Y = discharge[:, 77, 156] # Y就是在从0开始数的横坐标77个数据(纬度),纵坐标155个数据(经度)的每日流量
Y1 = Y.tolist()
Y2 = np.array(Y1)
Y3 = np.round(Y2,2)
Y4 = list(Y3)
plt.plot(X,Y4)
plt.show()
"""保存数据为xls"""

workbook = xlwt.Workbook()
worksheet = workbook.add_sheet("日均流量", cell_overwrite_ok=True)

title = ['时间','日平均流量']
for j in range(0,len(title)): # range左闭右开
    worksheet.write(0, j, title[j])
for i in range(0, len(X)):
    worksheet.write(i+1, 0, X[i])
    worksheet.write(i+1, 1, Y4[i])

workbook.save("discharge.xls")
print('discharge over')

python得到nc文件中的时间数据

val_data = file.variables['time'][:].data
times = nc.num2date(val_data,time.units)
times[:]

例子:

waterBodyStorage_file = r"C:\Users\32649\Desktop\nc\to_be_inspected\waterBodyStorage_monthEnd_output.nc"
reservoir_mask = r"C:\Users\32649\Desktop\nc\to_be_inspected\yangze_waterBodies5ArcMin.nc"  # 这是裁剪后的文件
data1 = Dataset(waterBodyStorage_file, 'r')
data2 = Dataset(reservoir_mask, 'r')
val_data = data1.variables['lake_and_reservoir_storage'][:].data
val_times = data1.variables['time']
times = netCDF4.num2date(val_times[:],val_times.units).data

python对netcdf文件按shp进行裁剪

# -*- coding:utf-8 -*-
# @author:Ye Zhoubing
# @datetime:2023/1/5 9:45
# @software: PyCharm
"""
按流域进行nc文件的裁剪,即对nc文件进行不规则裁剪
这里以裁剪出长江流域为例
"""
#先导入必要的库
import xarray
import rioxarray
import geopandas
from shapely.geometry import mapping

#使用xarray打开你的nc文件
xds = xarray.open_dataset(r"C:\Users\32649\Desktop\nc\to_be_inspected\yangze_waterBodies5ArcMin.nc")
#查看变量字段
print(xds)

#根据你的字段调整这里的内容
xds = xds[['waterBodyTyp']].transpose('time', 'lat', 'lon') # 'waterBodyTyp' 'time' 'lat' 'lon'都是根据你的nc确定的
# xds = xds[['waterBodyTyp', 'fracWaterInp']].transpose('time', 'lat', 'lon') # 保存多个变量
# xds = xds.transpose('time', 'lat', 'lon') # 保存所有变量
xds.rio.set_spatial_dims(x_dim="lon", y_dim="lat", inplace=True) # 会多添加一个spatial变量
xds.rio.write_crs("EPSG:4326", inplace=True) # 坐标参考系统CRS设为WGS84(投影格式为为WGS84对应的 EPSG编码:4326 )


#加载shp文件
geodf = geopandas.read_file(r"C:\Users\32649\Desktop\arcgis_data\changjiangt.shp")
#利用shp裁剪
clipped = xds.rio.clip(geodf.geometry.apply(mapping), geodf.crs)
#将文件保存为nc格式
clipped.to_netcdf('test.nc', mode='w', format="NETCDF4") # 生成的文件便只有'waterBodyTyp'这一个变量
目录
相关文章
|
9天前
|
Python
python文件读写操作的三大基本步骤
python文件读写操作的三大基本步骤
29 0
|
3天前
|
Linux iOS开发 MacOS
pyinstaller---Python代码的打包神器,一键将python代码打包成exe可执行文件
pyinstaller---Python代码的打包神器,一键将python代码打包成exe可执行文件
|
3天前
|
NoSQL Python
在Python中,我们可以使用许多库来处理Excel文件
Python处理Excel常用pandas和openpyxl库。pandas的`read_excel`用于读取文件,`to_excel`写入;示例展示了数据框操作。openpyxl则用于处理复杂情况,如多工作表,`load_workbook`加载文件,`iter_rows`读取数据,`Workbook`创建新文件,写入单元格数据后保存。
11 1
|
4天前
【Python21天学习挑战赛】文件读写操作
【Python21天学习挑战赛】文件读写操作
|
6天前
|
数据采集 存储 人工智能
Python采集数据保存CSV文件内容乱码解决
Python采集数据保存CSV文件内容乱码解决
22 1
|
7天前
|
JSON JavaScript 数据格式
python遍历目录文件_结合vue获取所有的html文件并且展示
python遍历目录文件_结合vue获取所有的html文件并且展示
4 0
|
8天前
|
存储 安全 Python
Python从入门到精通:2.2.2异常处理与文件操作:文件的打开、读取、写入和关闭操作。
Python从入门到精通:2.2.2异常处理与文件操作:文件的打开、读取、写入和关闭操作。
|
9天前
|
数据安全/隐私保护 Python
Python 中删除文件夹下文件的方法详解
本文探讨了Python删除文件夹中特定文件的三种方法。使用os模块简单直接,适合基础操作,但不支持递归删除;shutil库能递归删除整个文件夹,需谨慎使用;glob模块则按文件名模式匹配并删除,灵活性高但范围受限。根据需求和安全性考虑选择合适的方法。
3 0
|
10天前
|
Python
python html(文件/url/html字符串)转pdf
python html(文件/url/html字符串)转pdf
9 0
|
14天前
|
存储 Python
用Python实现批量下载文件——代理ip排除万难
用Python实现批量下载文件——代理ip排除万难