【Azure ADLS】Storage Account使用Data Lake模式的问题讨论

本文涉及的产品
对象存储 OSS,20GB 3个月
对象存储 OSS,内容安全 1000次 1年
对象存储 OSS,恶意文件检测 1000次 1年
简介: 在使用Azure Storage Account的时候,有两种模式账号,一种是普通的Stroage Account,另外一种是大数据存储模式 Data Lake模式,而这两种模式的启用与 Hierarchical Namespace设置有关:

问题描述

在使用Azure Storage Account的时候,有两种模式账号,一种是普通的Stroage Account,另外一种是大数据存储模式 Data Lake模式,而这两种模式的启用与 Hierarchical Namespace设置有关:

讨论问题为:

问题一:是不是只要把Hierarchical Namespace设置成 True, Storage Account的模式就会变成data lake

问题二:普通的Storage Account 和 Data Lake模式的Storage Account 使用的SDK是不同的吗?

问题解答

问题一:是不是只要把Hierarchical Namespace设置成True, Storage Account的模式就会变成data lake

Azure Data Lake Storage是一组专用于大数据分析的功能,基于Azure Blob Storage构建。它不是一种专用的服务或账户类型,而是作为一组功能来实现。

通过为Azure Blob Storage启用Hierarchical Namespace,就可以解锁这些功能。

因此,只要将Hierarchical Namespace设置为 True,Blob Storage就会支持Data Lake功能。

Hierarchical Namespace 是 Azure Data Lake Storage 的一个关键机制,它允许在对象存储的规模和价格下提供文件系统性能。

启用 Hierarchical Namespace 后,存储账户能够提供对象存储的可扩展性和成本效益,同时具备分析引擎和框架熟悉的文件系统语义

Hierarchical Namespace 的主要优点包括:

  1. 原子目录操作:对象存储通过在对象名称中嵌入斜杠(/)来表示路径段,从而近似目录层次结构。然而,这种方法在移动、重命名或删除目录等操作上没有帮助。启用 Hierarchical Namespace 后,这些操作可以通过更新单个条目(父目录)来完成,大大优化了许多大数据分析框架的性能
  2. 熟悉的界面风格:文件系统对开发人员和用户来说都很熟悉。迁移到云端时,不需要学习新的存储范式,因为 Data Lake Storage 暴露的文件系统接口与计算机上使用的范式相同
  3. 线性扩展:尽管历史上对象存储不支持 Hierarchical Namespace 是因为它限制了扩展性,但 Data Lake Storage 的 Hierarchical Namespace 线性扩展,不会降低数据容量或性能

启用 Hierarchical Namespace 后,存储账户将具备对象存储的可扩展性和成本效益,同时具备文件系统语义,适合分析引擎和框架

 

问题二:普通的Storage Account 和 Data Lake模式的Storage Account 使用的SDK是不同的吗?

Azure Blob Storage升级为Data Lake Storage后,Storage Account同时具有原本的Blob Storage Endpoint和Data Lake Storage Endpoint。

因此,不需要修改目前已经存在的应用以及Endpoint,依然可以兼容之前的访问方式。

只有需要使用Data Lake Storage提供的额外功能时,才需要调用 Data Lake Storage的SDK

You don't have to modify your existing applications and workloads to use that endpoint. Multiprotocol access in Data Lake Storage makes it possible for you to use either the Blob service endpoint or the Data Lake storage endpoint to interact with your data.

Reference docs: Upgrading Azure Blob Storage to Azure Data Lake Storage | Microsoft Learn

 

参考资料

Azure Data Lake Storage Introduction  : https://learn.microsoft.com/en-us/azure/storage/blobs/data-lake-storage-introduction#data-lake-storage

Upgrading Azure Blob Storage to Azure Data Lake Storage : https://learn.microsoft.com/en-us/azure/storage/blobs/upgrade-to-data-lake-storage-gen2#data-lake-storage-endpoint

 


当在复杂的环境中面临问题,格物之道需:浊而静之徐清,安以动之徐生。 云中,恰是如此!

相关实践学习
借助OSS搭建在线教育视频课程分享网站
本教程介绍如何基于云服务器ECS和对象存储OSS,搭建一个在线教育视频课程分享网站。
相关文章
|
4月前
|
存储 SQL 关系型数据库
【Azure 存储服务】Azure Storage Account 下的 Table 查询的性能调优
【Azure 存储服务】Azure Storage Account 下的 Table 查询的性能调优
|
4月前
|
存储 JSON Java
【Azure 存储服务】Azure Storage Account Queue中因数据格式无法处理而在一个小时内不在可见的问题
【Azure 存储服务】Azure Storage Account Queue中因数据格式无法处理而在一个小时内不在可见的问题
|
4月前
|
存储 分布式计算 Hadoop
【Azure 存储服务】Hadoop集群中使用ADLS(Azure Data Lake Storage)过程中遇见执行PUT操作报错
【Azure 存储服务】Hadoop集群中使用ADLS(Azure Data Lake Storage)过程中遇见执行PUT操作报错
|
4月前
|
存储 C# Python
【Azure Storage Account】Azure 存储服务计算Blob的数量和大小的PowerShell代码
【Azure Storage Account】Azure 存储服务计算Blob的数量和大小的PowerShell代码
|
4月前
|
存储 API 开发工具
【Azure API 管理】讨论APIM是否适合直接存储文件到Azure Storage Account呢?
【Azure API 管理】讨论APIM是否适合直接存储文件到Azure Storage Account呢?
|
4月前
|
存储 Java 关系型数据库
【Azure 存储服务】关于Storage Account Queue使用的几个问题
【Azure 存储服务】关于Storage Account Queue使用的几个问题
|
4月前
|
开发工具
【Azure Developer】在Azure Storage Account的两个Blob可以同步吗?可以跨订阅拷贝吗?
【Azure Developer】在Azure Storage Account的两个Blob可以同步吗?可以跨订阅拷贝吗?
|
4月前
|
存储 安全 API
【Azure 存储服务】关于对Azure Storage Account 的 Folder 权限管理和设定
【Azure 存储服务】关于对Azure Storage Account 的 Folder 权限管理和设定
|
4月前
|
存储 NoSQL API
【Azure 存储服务】Python模块(azure.cosmosdb.table)直接对表存储(Storage Account Table)做操作示例
【Azure 存储服务】Python模块(azure.cosmosdb.table)直接对表存储(Storage Account Table)做操作示例
|
7月前
|
存储 缓存 分布式计算
Spark与云存储的集成:S3、Azure Blob Storage
Spark与云存储的集成:S3、Azure Blob Storage