【数据湖】Azure 数据湖分析(Azure Data Lake Analytics )概述

简介: 【数据湖】Azure 数据湖分析(Azure Data Lake Analytics )概述

在本文中,我们将探索 Azure 数据湖分析并使用 U-SQL 查询数据。

Azure 数据湖分析 (ADLA) 简介

Microsoft Azure 平台支持 Hadoop、HDInsight、数据湖等大数据。通常,传统数据仓库存储来自各种数据源的数据,将数据转换为单一格式并进行分析以做出决策。开发人员使用可能需要更长时间进行数据检索的复杂查询。组织正在增加他们在云基础架构中的足迹。它利用了云基础设施仓库解决方案,例如 Amazon RedShift、Azure Synapse Analytics(Azure SQL 数据仓库)或 AWS 雪花。云解决方案具有高度可扩展性和可靠性,可支持您的数据、查询处理和存储需求。

数据仓库遵循Extract-Transform-Load机制进行数据传输。

  • 提取:从不同的数据源中提取数据
  • 转换:将数据转换为特定格式
  • 加载:将数据加载到预定义的数据仓库模式、表中

数据湖不需要严格的模式,并在分析之前将数据转换为单一格式。它以原始格式存储数据,例如二进制、视频、图像、文本、文档、PDF、JSON。它仅在需要时转换数据。数据可以是结构化、半结构化和非结构化格式。

数据湖的一些有用功能是:

  • 它存储原始数据(原始数据格式)
  • 它没有任何预定义的schema
  • 您可以在其中存储非结构化、半结构化和结构化
  • 它可以处理 PB 甚至数百 PB 的数据量
  • 数据湖在读取方法上遵循模式(schema ),根据需求对数据进行转换

概括地说,Azure 数据平台体系结构如下所示。图片参考:微软文档

  • 摄取:从各种数据源收集数据并以其原始格式存储到 Azure 数据湖中
  • 存储:将数据存储到 Azure Data Lake Storage、AWS S3 或 Google 云存储
  • 处理:将原始存储中的数据处理成兼容的格式
  • 分析:使用存储和处理的数据执行数据分析。您可以使用 Azure 数据湖分析 (ADLA)、HDInsight 或 Azure Databricks

相关文章
|
6月前
|
存储 消息中间件 SQL
基于 Apache Hudi 构建分析型数据湖
基于 Apache Hudi 构建分析型数据湖
61 4
|
6月前
|
存储 SQL 算法
图加速数据湖分析-GeaFlow和Apache Hudi集成
图加速数据湖分析-GeaFlow和Apache Hudi集成
56 3
|
6月前
|
存储 SQL 消息中间件
流数据湖平台Apache Paimon(一)概述
流数据湖平台Apache Paimon(一)概述
354 0
|
存储 分布式计算 OLAP
深度干货|谈谈阿里云AnalyticDB Spark如何构建低成本数据湖分析
本文将分享AnalyticDB MySQL Spark助力构建低成本数据湖分析的最佳实践。
|
SQL 弹性计算 分布式计算
使用EMR+DLF+OSS-HDFS进行数据湖分析
本实验通过使用EMR,搭建EMR集群,对OSS-HDFS进行数据湖分析
|
存储 SQL 分布式计算
图加速数据湖分析-GeaFlow和Hudi集成
本文主要分析了表模型的现状和问题,然后介绍了图模型在处理关系运算上的优势,接着介绍了图计算引擎GeaFlow和数据湖格式hudi的整合,利用图计算引擎加速数据湖上的关系运算.
图加速数据湖分析-GeaFlow和Hudi集成
|
SQL 机器学习/深度学习 存储
阿里云数据湖分析简介和购买流程
云原生数据湖分析(简称DLA)是新一代大数据解决方案,采取计算与存储完全分离的架构,支持数据库(RDS\PolarDB\NoSQL)与消息实时归档建仓,提供弹性的Spark与Presto,满足在线交互式查询、流处理、批处理、机器学习等诉求,也是传统Hadoop方案上云的有竞争力的解决方案。
|
存储 数据采集 分布式计算
数据湖架构的优势与挑战:数据存储和分析策略
随着大数据时代的到来,数据湖架构逐渐成为许多企业进行数据存储和分析的首选方案。数据湖是一种用于存储大量原始和结构化数据的中心化存储库。在本文中,我们将深入探讨数据湖架构的优势和挑战,并介绍一些常见的数据存储和分析策略。
497 0
|
SQL 存储 分布式计算
【数据湖仓架构】数据湖和仓库:Azure Synapse 视角
【数据湖仓架构】数据湖和仓库:Azure Synapse 视角
|
存储 传感器 SQL
【数据湖架构】Azure Data Lake数据湖指南(下)
【数据湖架构】Azure Data Lake数据湖指南