【Azure ADLS】Storage Account使用Data Lake模式的问题讨论

本文涉及的产品
对象存储 OSS,OSS 加速器 50 GB 1个月
简介: 在使用Azure Storage Account的时候,有两种模式账号,一种是普通的Stroage Account,另外一种是大数据存储模式 Data Lake模式,而这两种模式的启用与 Hierarchical Namespace设置有关:

问题描述

在使用Azure Storage Account的时候,有两种模式账号,一种是普通的Stroage Account,另外一种是大数据存储模式 Data Lake模式,而这两种模式的启用与 Hierarchical Namespace设置有关:

讨论问题为:

问题一:是不是只要把Hierarchical Namespace设置成 True, Storage Account的模式就会变成data lake

问题二:普通的Storage Account 和 Data Lake模式的Storage Account 使用的SDK是不同的吗?

问题解答

问题一:是不是只要把Hierarchical Namespace设置成True, Storage Account的模式就会变成data lake

Azure Data Lake Storage是一组专用于大数据分析的功能,基于Azure Blob Storage构建。它不是一种专用的服务或账户类型,而是作为一组功能来实现。

通过为Azure Blob Storage启用Hierarchical Namespace,就可以解锁这些功能。

因此,只要将Hierarchical Namespace设置为 True,Blob Storage就会支持Data Lake功能。

Hierarchical Namespace 是 Azure Data Lake Storage 的一个关键机制,它允许在对象存储的规模和价格下提供文件系统性能。

启用 Hierarchical Namespace 后,存储账户能够提供对象存储的可扩展性和成本效益,同时具备分析引擎和框架熟悉的文件系统语义

Hierarchical Namespace 的主要优点包括:

  1. 原子目录操作:对象存储通过在对象名称中嵌入斜杠(/)来表示路径段,从而近似目录层次结构。然而,这种方法在移动、重命名或删除目录等操作上没有帮助。启用 Hierarchical Namespace 后,这些操作可以通过更新单个条目(父目录)来完成,大大优化了许多大数据分析框架的性能
  2. 熟悉的界面风格:文件系统对开发人员和用户来说都很熟悉。迁移到云端时,不需要学习新的存储范式,因为 Data Lake Storage 暴露的文件系统接口与计算机上使用的范式相同
  3. 线性扩展:尽管历史上对象存储不支持 Hierarchical Namespace 是因为它限制了扩展性,但 Data Lake Storage 的 Hierarchical Namespace 线性扩展,不会降低数据容量或性能

启用 Hierarchical Namespace 后,存储账户将具备对象存储的可扩展性和成本效益,同时具备文件系统语义,适合分析引擎和框架

 

问题二:普通的Storage Account 和 Data Lake模式的Storage Account 使用的SDK是不同的吗?

Azure Blob Storage升级为Data Lake Storage后,Storage Account同时具有原本的Blob Storage Endpoint和Data Lake Storage Endpoint。

因此,不需要修改目前已经存在的应用以及Endpoint,依然可以兼容之前的访问方式。

只有需要使用Data Lake Storage提供的额外功能时,才需要调用 Data Lake Storage的SDK

You don't have to modify your existing applications and workloads to use that endpoint. Multiprotocol access in Data Lake Storage makes it possible for you to use either the Blob service endpoint or the Data Lake storage endpoint to interact with your data.

Reference docs: Upgrading Azure Blob Storage to Azure Data Lake Storage | Microsoft Learn

 

参考资料

Azure Data Lake Storage Introduction  : https://learn.microsoft.com/en-us/azure/storage/blobs/data-lake-storage-introduction#data-lake-storage

Upgrading Azure Blob Storage to Azure Data Lake Storage : https://learn.microsoft.com/en-us/azure/storage/blobs/upgrade-to-data-lake-storage-gen2#data-lake-storage-endpoint

 


当在复杂的环境中面临问题,格物之道需:浊而静之徐清,安以动之徐生。 云中,恰是如此!

相关实践学习
对象存储OSS快速上手——如何使用ossbrowser
本实验是对象存储OSS入门级实验。通过本实验,用户可学会如何用对象OSS的插件,进行简单的数据存、查、删等操作。
相关文章
|
负载均衡 前端开发 Java
Spring Cloud Feign(声明式服务调用)使用指南
Spring Cloud Feign(声明式服务调用)使用指南
5361 0
Spring Cloud Feign(声明式服务调用)使用指南
|
应用服务中间件 nginx 缓存
一文掌握 Nginx 反向代理:从入门到生产级配置
本文全面解析Nginx反向代理,涵盖基础概念、负载均衡策略、SSL终止、缓存、安全防护及生产级配置,助你从入门到精通,构建高性能、高可用的Web架构。
1150 1
|
9月前
|
存储 关系型数据库 MySQL
成本直降30%!RDS MySQL存储自动分层实战:OSS冷热分离架构设计指南
在日均订单量超500万的场景下,MySQL数据年增200%,但访问集中在近7天(85%)。通过冷热数据分离,将历史数据迁移至OSS,实现存储成本下降48%,年省72万元。结合RDS、OSS与Redis构建分层架构,自动化管理数据生命周期,优化查询性能与资源利用率,支撑PB级数据扩展。
600 3
|
存储 关系型数据库 分布式数据库
PolarDB PG 版冷热数据分层功能介绍
本文介绍了云原生数据库PolarDB PG版的冷热数据分层存储功能,涵盖其原理、特性及最佳实践。冷热分层存储通过将冷数据归档至OSS(对象存储服务),实现低成本高效存储,同时保持SQL操作透明性和性能优化。支持多种分层模式,如表与索引分层、大字段独立归档等,并提供压缩和缓存机制以提升访问速度。此外,还介绍了如何通过DDL语句轻松转存数据至OSS,以及一系列最佳实践,包括自动冷热分层、无锁表转存和一键转存等功能。
860 36
|
消息中间件 存储 监控
Kafka 消息保留策略及其影响详解
Kafka 消息保留策略及其影响详解
861 0
|
JSON Java 测试技术
必知的技术知识:Jmeter压测工具使用手册(完整版)
必知的技术知识:Jmeter压测工具使用手册(完整版)
|
分布式计算 Hadoop Linux
找到Hadoop的安装目录
【4月更文挑战第19天】具体的安装目录可能因您的安装方式和环境而有所不同。如果您在安装Hadoop时遵循了特定的教程或文档,建议参考该教程或文档中的安装目录信息。
614 3
|
存储 监控 安全
基于日志审计服务解读网络数据时代新安全
《网络安全法》、《数据安全法》及《等保2.0》为网络时代数字化经济的安全健康发展提供了有力支撑,也对企业数字安全管理提出了更高要求。日志审计App可视、可控、可溯的日志全生命周期安全保护方案及阿里云各类云安全服务,全方位地帮助守护企业云上资产及数据安全,保障数字经济产业的健全发展。
基于日志审计服务解读网络数据时代新安全
|
存储 大数据 数据安全/隐私保护
【专栏】带你了解 S3 背后的故事,为我们的数字世界提供坚实的存储基础
【4月更文挑战第28天】S3,亚马逊的简单存储服务协议,是云存储的事实标准,以其易用、高效和可靠的对象存储闻名。核心概念包括桶(存储单元)、对象(独立数据实体)和区域(地理分布)。S3 提供弹性存储、高可用性、数据安全和成本效益,广泛应用于备份、大数据、网站存储等。其成功推动了云存储市场发展,促进了数据存储创新,成为云存储领域不可或缺的部分。
3489 0

热门文章

最新文章