Python读取多个栅格文件并提取像元的各波段时间序列数据与变化值

简介: Python读取多个栅格文件并提取像元的各波段时间序列数据与变化值

  本文介绍基于Python语言,读取文件夹下大量栅格遥感影像文件,并基于给定的一个像元,提取该像元对应的全部遥感影像文件中,指定多个波段的数值;修改其中不在给定范围内的异常值,并计算像元数值在每一景遥感影像中变化的差值;最终将这些数据保存为一个新的Excel表格文件的方法。

  首先,我们来看一下本文需要具体实现的需求。现在有一个文件夹,如下图所示;其中,存放了大量的遥感影像文件,且每一景遥感影像都是同一个空间位置、不同成像时间对应的遥感影像,因此其空间参考信息、栅格的行数与列数等都是一致的。此外,每一景遥感影像都具有5个不同的波段。

  我们现在希望,给定一个像元(也就是给定了这个像元在遥感影像中的行号与列号),提取出在指定的波段中(我们这里就提取全部的5个波段),该像元对应的每一景遥感影像的数值(也就是提取了该像元在每一景遥感影像、每一个波段的数值);随后,将提取到的大于1的数值修改为1,并计算像素值在每一景遥感影像中数值的差值;最后,将提取到的数据保存为一个Excel表格文件。

  明确了需求,我们就可以撰写代码;具体如下。

# -*- coding: utf-8 -*-
"""
Created on Thu Jul 27 11:25:55 2023
@author: fkxxgis
"""
import os
import pandas as pd
from osgeo import gdal
def extract_pixel_time_series(input_folder, output_csv):
    tif_files = [file for file in os.listdir(input_folder) if file.endswith('.tif')]
    target_row = 495
    target_col = 60
    time_series_df = pd.DataFrame()
    for tif_file in tif_files:
        file_path = os.path.join(input_folder, tif_file)
        dataset = gdal.Open(file_path)
        for band in range(dataset.RasterCount):
            band_data = dataset.GetRasterBand(band + 1).ReadAsArray()
            pixel_value = band_data[target_row, target_col]
            date = tif_file[10: 24]
            time_series_df.at[date, f'Band_{band + 1}'] = pixel_value
        dataset = None
    for index in range(len(time_series_df.columns)):
        time_series_df = time_series_df.apply(lambda x: x.clip(upper = 1))
        new_col_name = time_series_df.columns[index] + "_diff"
        time_series_df[new_col_name] = time_series_df.iloc[:, index].diff()
    time_series_df.to_csv(output_csv)
# 示例用法
input_folder = r"E:\01_Reflectivity\FiveBands"
output_csv = r"E:\01_Reflectivity\Data.csv"
extract_pixel_time_series(input_folder, output_csv)

  首先,我们需要导入必要的模块和库。其中os用于操作文件和文件夹,pandas用于处理数据和创建DataFrame格式数据,而gdal则用于读取栅格数据;关于gdal库的配置方法,大家可以参考文章Anaconda环境GDAL库基于whl文件的配置方法https://blog.csdn.net/zhebushibiaoshifu/article/details/128320388)。

  随后,我们对extract_pixel_time_series这个函数加以定义。这个函数接收两个参数input_folderoutput_csv,分别表示存储栅格数据的文件夹路径和输出的Excel文件的路径。随后,列出input_folder文件夹下所有以.tif结尾的文件,并存储在列表中。其次,循环遍历每个栅格文件,构建完整的文件路径,用于后面的数据读取,并使用gdal.Open()打开栅格文件,获取数据集对象。

  接下来,通过循环遍历每个波段。读取当前波段的数据,并存储在band_data变量中。随后基于我们给定的像元位置,提取目标像元的数值(位置就是这个[target_row, target_col])。此外,为了使得我们保存结果时可以记录每一个数值对应的成像日期,因此需要从文件名中提取日期,并存储在date变量中。

  接下来,通过time_series_df.at[date, f'Band_{band + 1}'],将像元值存储在DataFrame中,行索引为日期,列名为Band_1Band_2等;随后,将数据集对象dataset设为None,释放内存资源。

  接下来,我们将大于1的数值加以处理,并计算每个波段随时间变化的数值之差。遍历time_series_df的每一列,并对于每一列使用clip(upper=1)将超过1的值截断为1;随后,为每一列创建新列,列名为原列名加上_diff,存储该列差值。

  最后,我们将处理后的时间序列数据保存为Excel表格文件即可。

  运行上述代码,我们即可获得多个遥感影像文件中,给定像元位置处,像元数值的时间变化序列,并可以获得其变化值。

  至此,大功告成。

欢迎关注:疯狂学习GIS

相关文章
|
10天前
|
机器学习/深度学习 数据可视化 数据挖掘
使用Python实现基于矩阵分解的长期事件(MFLEs)时间序列分析
在现代数据分析中,高维时间序列数据的处理和预测极具挑战性。基于矩阵分解的长期事件(MFLEs)分析技术应运而生,通过降维和时间序列特性结合,有效应对大规模数据。MFLE利用矩阵分解提取潜在特征,降低计算复杂度,过滤噪声,并发现主要模式。相比传统方法如ARIMA和深度学习模型如LSTM,MFLE在多变量处理、计算效率和可解释性上更具优势。通过合理应用MFLE,可在物联网、金融等领域获得良好分析效果。
31 0
使用Python实现基于矩阵分解的长期事件(MFLEs)时间序列分析
|
12天前
|
数据可视化 算法 数据挖掘
Python时间序列分析工具Aeon使用指南
**Aeon** 是一个遵循 scikit-learn API 风格的开源 Python 库,专注于时间序列处理。它提供了分类、回归、聚类、预测建模和数据预处理等功能模块,支持多种算法和自定义距离度量。Aeon 活跃开发并持续更新至2024年,与 pandas 1.4.0 版本兼容,内置可视化工具,适合数据探索和基础分析任务。尽管在高级功能和性能优化方面有提升空间,但其简洁的 API 和完整的基础功能使其成为时间序列分析的有效工具。
62 37
Python时间序列分析工具Aeon使用指南
|
8天前
|
机器学习/深度学习 运维 数据可视化
Python时间序列分析:使用TSFresh进行自动化特征提取
TSFresh 是一个专门用于时间序列数据特征自动提取的框架,支持分类、回归和异常检测等机器学习任务。它通过自动化特征工程流程,处理数百个统计特征(如均值、方差、自相关性等),并通过假设检验筛选显著特征,提升分析效率。TSFresh 支持单变量和多变量时间序列数据,能够与 scikit-learn 等库无缝集成,适用于大规模时间序列数据的特征提取与模型训练。其工作流程包括数据格式转换、特征提取和选择,并提供可视化工具帮助理解特征分布及与目标变量的关系。
49 16
Python时间序列分析:使用TSFresh进行自动化特征提取
|
2天前
|
存储 数据采集 数据处理
如何在Python中高效地读写大型文件?
大家好,我是V哥。上一篇介绍了Python文件读写操作,今天聊聊如何高效处理大型文件。主要方法包括:逐行读取、分块读取、内存映射(mmap)、pandas分块处理CSV、numpy处理二进制文件、itertools迭代处理及linecache逐行读取。这些方法能有效节省内存,提升效率。关注威哥爱编程,学习更多Python技巧。
|
3天前
|
存储 JSON 对象存储
如何使用 Python 进行文件读写操作?
大家好,我是V哥。本文介绍Python中文件读写操作的方法,包括文件读取、写入、追加、二进制模式、JSON、CSV和Pandas模块的使用,以及对象序列化与反序列化。通过这些方法,你可以根据不同的文件类型和需求,灵活选择合适的方式进行操作。希望对正在学习Python的小伙伴们有所帮助。欢迎关注威哥爱编程,全栈路上我们并肩前行。
|
18天前
|
存储 算法 Serverless
剖析文件共享工具背后的Python哈希表算法奥秘
在数字化时代,文件共享工具不可或缺。哈希表算法通过将文件名或哈希值映射到存储位置,实现快速检索与高效管理。Python中的哈希表可用于创建简易文件索引,支持快速插入和查找文件路径。哈希表不仅提升了文件定位速度,还优化了存储管理和多节点数据一致性,确保文件共享工具高效运行,满足多用户并发需求,推动文件共享领域向更高效、便捷的方向发展。
|
1月前
|
计算机视觉 Python
如何使用Python将TS文件转换为MP4
本文介绍了如何使用Python和FFmpeg将TS文件转换为MP4文件。首先需要安装Python和FFmpeg,然后通过`subprocess`模块调用FFmpeg命令,实现文件格式的转换。代码示例展示了具体的操作步骤,包括检查文件存在性、构建FFmpeg命令和执行转换过程。
58 7
|
2月前
|
中间件 Docker Python
【Azure Function】FTP上传了Python Function文件后,无法在门户页面加载函数的问题
通过FTP上传Python Function至Azure云后,出现函数列表无法加载的问题。经排查,发现是由于`requirements.txt`中的依赖包未被正确安装。解决方法为:在本地安装依赖包到`.python_packages/lib/site-packages`目录,再将该目录内容上传至云上的`wwwroot`目录,并重启应用。最终成功加载函数列表。
|
2月前
|
数据采集 存储 数据挖掘
Python数据分析:Pandas库的高效数据处理技巧
【10月更文挑战第27天】在数据分析领域,Python的Pandas库因其强大的数据处理能力而备受青睐。本文介绍了Pandas在数据导入、清洗、转换、聚合、时间序列分析和数据合并等方面的高效技巧,帮助数据分析师快速处理复杂数据集,提高工作效率。
107 0
|
2月前
|
机器学习/深度学习 数据采集 数据挖掘
解锁 Python 数据分析新境界:Pandas 与 NumPy 高级技巧深度剖析
Pandas 和 NumPy 是 Python 中不可或缺的数据处理和分析工具。本文通过实际案例深入剖析了 Pandas 的数据清洗、NumPy 的数组运算、结合两者进行数据分析和特征工程,以及 Pandas 的时间序列处理功能。这些高级技巧能够帮助我们更高效、准确地处理和分析数据,为决策提供支持。
61 2

热门文章

最新文章