在当今世界,地球观测(EO)数据的重要性日益凸显,它在气候变化研究、环境监测、资源管理等领域发挥着不可或缺的作用。然而,随着深度学习技术的飞速发展,对大规模、高质量的EO数据集的需求也日益增长。为了满足这一需求,Hugging Face平台近日开源了迄今为止最大的地球观测数据集——Major TOM(Terrestrial Observation Metaset),这一举措标志着地球观测数据共享和利用的新篇章。
Major TOM的诞生,旨在解决现有EO数据集分散、格式多样、互操作性差的问题。它提供了一个共享框架,允许用户轻松地结合和访问多个数据集,从而极大地提高了数据的利用效率。这一框架的核心是一个基于网格点的地理索引系统,以及一套灵活的元数据结构,使得不同来源的数据集能够无缝合并。
MajorTOM-Core数据集的发布,是Major TOM框架的首次实践。它覆盖了地球大部分陆地表面,提供了超过2.25亿个样本,覆盖面积接近地球表面的50%。这些数据不仅包括了Sentinel-2的1C和2A两个级别的数据,还采用了1,068×1,068像素的补丁大小,确保了数据的高分辨率和丰富性。MajorTOM-Core的开放获取,为全球的研究人员提供了一个宝贵的资源,同时也为未来数据集的扩展提供了模板。
Major TOM的设计哲学是简单、通用和可重复。它采用了一种基于简单规则的网格点定义,确保了数据采样的均匀性和准确性。同时,Major TOM遵循STAC标准,这是一种EO数据标准化的实践,它允许用户通过搜索和过滤元数据,快速访问不同来源的数据。这种设计不仅提高了数据的互操作性,也为数据的长期维护和更新提供了便利。
除了栅格数据,Major TOM还适用于其他类型的地理空间数据。例如,LUCAS数据集提供了欧洲经济区的地面图像和调查数据,而MajorTOM-LUCAS-2018则将这些地面数据与卫星图像相结合,为土地利用土地覆盖分类和卫星-地面特征对齐等研究提供了新的视角。
Major TOM的推出,不仅为地球观测数据集的构建提供了一种新的解决方案,也为构建一个大型、开放、可互操作的数据集生态系统铺平了道路。它的框架规范设计得既灵活又开放,鼓励未来的数据集开发者根据自己的需求进行适应和扩展。随着更多数据源的加入,Major TOM有望成为地球观测领域的一个重要资源,推动相关研究和应用的发展。
在Hugging Face平台上,MajorTOM-Core数据集的开源,使得全球的研究人员和开发者都能够轻松访问和利用这些宝贵的数据资源。