【Azure ADLS】Storage Account使用Data Lake模式的问题讨论

本文涉及的产品
对象存储 OSS,20GB 3个月
对象存储 OSS,内容安全 1000 次 1年
对象存储 OSS,恶意文件检测 1000次 1年
简介: 在使用Azure Storage Account的时候,有两种模式账号,一种是普通的Stroage Account,另外一种是大数据存储模式 Data Lake模式,而这两种模式的启用与 Hierarchical Namespace设置有关:

问题描述

在使用Azure Storage Account的时候,有两种模式账号,一种是普通的Stroage Account,另外一种是大数据存储模式 Data Lake模式,而这两种模式的启用与 Hierarchical Namespace设置有关:

讨论问题为:

问题一:是不是只要把Hierarchical Namespace设置成 True, Storage Account的模式就会变成data lake

问题二:普通的Storage Account 和 Data Lake模式的Storage Account 使用的SDK是不同的吗?

问题解答

问题一:是不是只要把Hierarchical Namespace设置成True, Storage Account的模式就会变成data lake

Azure Data Lake Storage是一组专用于大数据分析的功能,基于Azure Blob Storage构建。它不是一种专用的服务或账户类型,而是作为一组功能来实现。

通过为Azure Blob Storage启用Hierarchical Namespace,就可以解锁这些功能。

因此,只要将Hierarchical Namespace设置为 True,Blob Storage就会支持Data Lake功能。

Hierarchical Namespace 是 Azure Data Lake Storage 的一个关键机制,它允许在对象存储的规模和价格下提供文件系统性能。

启用 Hierarchical Namespace 后,存储账户能够提供对象存储的可扩展性和成本效益,同时具备分析引擎和框架熟悉的文件系统语义

Hierarchical Namespace 的主要优点包括:

  1. 原子目录操作:对象存储通过在对象名称中嵌入斜杠(/)来表示路径段,从而近似目录层次结构。然而,这种方法在移动、重命名或删除目录等操作上没有帮助。启用 Hierarchical Namespace 后,这些操作可以通过更新单个条目(父目录)来完成,大大优化了许多大数据分析框架的性能
  2. 熟悉的界面风格:文件系统对开发人员和用户来说都很熟悉。迁移到云端时,不需要学习新的存储范式,因为 Data Lake Storage 暴露的文件系统接口与计算机上使用的范式相同
  3. 线性扩展:尽管历史上对象存储不支持 Hierarchical Namespace 是因为它限制了扩展性,但 Data Lake Storage 的 Hierarchical Namespace 线性扩展,不会降低数据容量或性能

启用 Hierarchical Namespace 后,存储账户将具备对象存储的可扩展性和成本效益,同时具备文件系统语义,适合分析引擎和框架

 

问题二:普通的Storage Account 和 Data Lake模式的Storage Account 使用的SDK是不同的吗?

Azure Blob Storage升级为Data Lake Storage后,Storage Account同时具有原本的Blob Storage Endpoint和Data Lake Storage Endpoint。

因此,不需要修改目前已经存在的应用以及Endpoint,依然可以兼容之前的访问方式。

只有需要使用Data Lake Storage提供的额外功能时,才需要调用 Data Lake Storage的SDK

You don't have to modify your existing applications and workloads to use that endpoint. Multiprotocol access in Data Lake Storage makes it possible for you to use either the Blob service endpoint or the Data Lake storage endpoint to interact with your data.

Reference docs: Upgrading Azure Blob Storage to Azure Data Lake Storage | Microsoft Learn

 

参考资料

Azure Data Lake Storage Introduction  : https://learn.microsoft.com/en-us/azure/storage/blobs/data-lake-storage-introduction#data-lake-storage

Upgrading Azure Blob Storage to Azure Data Lake Storage : https://learn.microsoft.com/en-us/azure/storage/blobs/upgrade-to-data-lake-storage-gen2#data-lake-storage-endpoint

 


当在复杂的环境中面临问题,格物之道需:浊而静之徐清,安以动之徐生。 云中,恰是如此!

相关实践学习
通义万相文本绘图与人像美化
本解决方案展示了如何利用自研的通义万相AIGC技术在Web服务中实现先进的图像生成。
相关文章
|
10月前
|
SQL 存储 关系型数据库
【MySQL基础篇】全面学习总结SQL语法、DataGrip安装教程
本文详细介绍了MySQL中的SQL语法,包括数据定义(DDL)、数据操作(DML)、数据查询(DQL)和数据控制(DCL)四个主要部分。内容涵盖了创建、修改和删除数据库、表以及表字段的操作,以及通过图形化工具DataGrip进行数据库管理和查询。此外,还讲解了数据的增、删、改、查操作,以及查询语句的条件、聚合函数、分组、排序和分页等知识点。
851 55
【MySQL基础篇】全面学习总结SQL语法、DataGrip安装教程
|
12月前
|
SQL 存储 关系型数据库
什么是MySQL Workbench
【10月更文挑战第17天】什么是MySQL Workbench
1161 0
|
分布式计算 关系型数据库 数据处理
OceanBase 在金融行业的应用案例
【8月更文第31天】随着金融行业的快速发展,数据量的急剧增长和对数据处理能力的需求日益增加,传统的数据库解决方案已经难以满足现代金融机构对于高性能、高可用性和大规模扩展性的需求。在这种背景下,分布式数据库应运而生,其中OceanBase作为一款由阿里巴巴自主研发的分布式关系型数据库,在金融行业得到了广泛的应用。
760 0
|
10月前
|
机器学习/深度学习 数据采集 人工智能
《人工智能:驱散新材料数据噪声与填补缺失值的曙光》
在新材料研发中,数据如同基石,但噪声和缺失值却阻碍了科研进展。幸运的是,人工智能技术提供了创新解决方案。机器学习算法能识别并去除噪声数据,通过聚类、回归等方法填补缺失值;深度学习则以其强大的特征提取能力,处理复杂数据,生成对抗网络(GANs)可高质量填补缺失值。尽管面临挑战,AI正引领材料科学走向精准高效的新时代。
222 9
|
10月前
|
数据采集 机器学习/深度学习 人工智能
《人工智能虚拟筛选技术:新材料发现的双刃剑》
人工智能虚拟筛选技术在新材料发现中崭露头角,凭借高效筛选海量数据、精准预测性能、降低研发成本和拓展设计空间等优势,显著加速了新材料的探索进程。然而,该技术仍面临数据质量、模型解释性及泛化能力不足等挑战。尽管如此,其潜力巨大,未来有望推动材料科学的快速发展,为人类创造更多高性能新材料。
317 7
|
10月前
|
开发工具 git 监控
刺激!我在网上帮警察叔叔抓了一个贼
刺激!我在网上帮警察叔叔抓了一个贼
183 5
|
10月前
|
API
Istio 使用ingress和gateway两种方式公开服务
本文档指导您完成Istio网关的部署与配置。首先安装`istiod`(步骤略过)。接着,创建`ingress.yaml`文件,定义Istio入口网关的服务、部署及权限设置,通过`kubectl apply -f ingress.yaml`命令应用。最后,创建Ingress资源,指定主机名、后端服务及TLS配置,实现对外部请求的路由管理。
886 1
|
11月前
|
传感器 物联网 开发工具
低功耗蓝牙和 Wi-Fi 哪个成本更低
低功耗蓝牙和Wi-Fi在成本上各有优势。低功耗蓝牙芯片成本较低,功耗更小,适合简单数据传输;而Wi-Fi传输速率高,但芯片成本和功耗相对较高,适用于复杂网络环境。具体选择需根据应用场景决定。
|
分布式计算 Hadoop Java
Hadoop集群搭建,基于3.3.4hadoop和centos8【图文教程-从零开始搭建Hadoop集群】,常见问题解决
本文是一份详细的Hadoop集群搭建指南,基于Hadoop 3.3.4版本和CentOS 8操作系统。文章内容包括虚拟机创建、网络配置、Java与Hadoop环境搭建、克隆虚拟机、SSH免密登录设置、格式化NameNode、启动Hadoop集群以及通过UI界面查看Hadoop运行状态。同时,还提供了常见问题的解决方案。
Hadoop集群搭建,基于3.3.4hadoop和centos8【图文教程-从零开始搭建Hadoop集群】,常见问题解决