下一代企业级云上数据分析服务:Data Lake Analytics

简介: 0. Data Warehouse VS Data Lake 0.1 传统数仓 数据来源于各类云数据存储、NoSQL和关系型数据库等系统,比如OSS、Table Store、NAS、 云HBase、RDS、PolarDB等; 数据以实时、分钟、小时、天等级别进行ETL抽取与同步到数仓系统中; 在数仓中进行实时、定时调度、汇总计算分析。

0. Data Warehouse VS Data Lake

0.1 传统数仓

  • 数据来源于各类云数据存储、NoSQL和关系型数据库等系统,比如OSS、Table Store、NAS、 云HBase、RDS、PolarDB等;
  • 数据以实时、分钟、小时、天等级别进行ETL抽取与同步到数仓系统中;
  • 在数仓中进行实时、定时调度、汇总计算分析。

关注到数仓的实时同步、实时海量数据的分析能力,可以关注阿里云的分析型数据库AnalyticDB(https://www.aliyun.com/product/ads),在云上打造实时数仓的解决方案。

image.png | left | 827x343

从数据、Schema、价格、性能、数据质量、用户、分析的workload等各类特征维度比较传统数仓和Data Lake的解决方案和应用场景的区别:(注:部分内容翻译于:https://amazonaws-china.com/big-data/what-is-a-data-lake/

特征
Data Warehouse(传统数仓)
Data Lake
数据
来自于交易型系统的典型的关系型数据和各类业务线的应用数据
来自IoT物联网设备、网站、移动设备、社交媒体和企业应用的各类非关系型和关系型数据
Schema
Schema-on-write
(在数仓规划和实现前预先设计好Schema和ER关系)
Schema-on-read
(分析时确定或伴随着分析时进行获取)
价格、性能
更高的数据存储开销,获得最好的分析查询性能
比较低的数据存储开销,以还不错的速度获取分析查询结果
数据质量
高度策划、清洗过的数据,提供最核心关键的数据信息和决策支持
任何数据(清洗或者未清洗过的)
用户
Business analysts
Data scientists, Data developers和 Business analysts (使用高度策划和清洗过的数据)
分析
批量报表、BI和可视化展现
机器学习、预测分析、数据发现和画像

0.2 Cloud Data Lake分析分层

在云上构建数据湖分析场景的架构分层比较清晰,自底向上分三层:

  • 第一层:多样选择的“南向多模”云原生数据存储和数据库服务。用户面向一系列云原生的数据存储服务和云数据库系统存储、摆放自己的数据,多样的选择包括:性价比高的对象云存储(非常方便存储文件,结构化、半结构化、非结构化的raw data,多媒体文件),NoSQL(TableStore、云HBase等),RDS、PolarDB等云数据库服务。
  • 第二层:面向“南向多模”而构建的云原生Data Lake分析服务层。该层强调云原生Cloud Native中很重要的一个特质,就是Serverless无服务器化,是云上打造SaaS化的基础服务,除了Data Lake分析场景,还有更加泛在的Serverless PaaS(https://serverless.aliyun.com/)和FaaS(比如阿里云的函数计算: https://www.aliyun.com/product/fc)。本文重点关注Data Lake分析场景的Serverless分析能力,总的来看我们总结为三个方面:

    • 第一,Elastic。强调弹性化能力,能够按需、及时弹性,有预测性,智能的混合负载处理能力;
    • 第二,Resilient。用户无感知的高可用能力,包括透明的滚动升级、快速Failover、跨AZ(可用区)的容灾能力等;
    • 第三,Federated & Analytical。面向多模的联邦分析能力,包括对多种格式、系统的分析对接能力,全面的分析功能和优秀的交互式分析性能和体验,包括数据、计算并行化处理能力,良好的接口兼容能力等。
  • 第三层:数据分析应用、可视化应用层。基于Data Lake分析服务层打造的业务逻辑,还包括云上的数据分析工具和产品DataV( https://data.aliyun.com/visual/datav ),QuickBI( https://data.aliyun.com/product/bi ),或者未来在云市场( https://market.aliyun.com/ )上上线的各类其他数据分析产品和工具等。

在云上,用户能够非常方便的直接与三层的云产品、服务交互,构建自己的云数据湖分析场景和解决方案。

image.png | left | 827x407

1. Data Lake Analytics概述

1.1 Data Lake Analytics生态分层

在上一节Cloud Data Lake分析分层的基础上,Data Lake Analytics的生态分层分为:Result结果层,Serverless分析层,数据源Source层,以及BI SaaS层。

  • 数据源Source层:支持OSS、NoSQL(TableStore等)、RDS(MySQL、PostgreSQL、SQL Server)等数据的并行化联邦分析;
  • Serverless分析层:是Data Lake Analytics的核心计算、分析层;
  • Result结果层:通过Data Lake Analytics内置的多源、多路的ETL能力,将分析结果回流到OSS、NoSQL系统、RDS等RDBMS关系型数据库,以及一些其他的数据缓存系统等;
  • BI SaaS层:兼容性在持续增强,目前支持Qlik、Tableau、Microstrategy、阿里云QuickBI以及其他主流MySQL客户端工具以MySQL数据源的方式,连接Data Lake Analytics服务进行分析。

image.png | left | 827x320

1.2 产品特点

无服务器化
标准SQL与连接
异构数据源
优化的计算引擎
  • 无基础设施和管理成
  • 零启动时间
  • 透明升级
  • QoS弹性服务
  • 兼容标准SQL
  • 丰富的内置函数支持
  • JDBC/ODBC支持
  • BI工具兼容
  • 激活OSS数据分析需求
  • 激活Table Store数据SQL服务
  • 跨多数据库实例的联邦数据分析
  • 多数据源轻松互联分析
  • Analytics in “Data Lake”
  • 支持非结构化数据
  • 向量化执行优化
  • 算子流水线优化
  • 资源隔离与优先级
  • FPGA/GPU加速(待推出)

2. Data Lake Analytics云上部署架构

在单个阿里云region内,Data Lake Analytics服务的部署架构如下所示:

  • Alibaba Cloud Management Zone(OXS区)

    • Admin Proxy属于产品的管控节点,部署在OXS区,向下负责与阿里云售卖系统、计量、ALB、SLA、云监控、SLS、RAM等系统交互,完成所有云产品属性的管控和服务功能,向上负责提供POP API,为产品控制台提供服务入口;
  • Alibaba Cloud Public Cloud Zone(售卖区)

    • DLA所有服务角色都运行于VPC内的ECS,包括Resource Manager,Frontnode,Computenode,Meta Store等;
    • Resource Manager是Data Lake Analytics资源调度的大脑,负责服务进程拉起、看护、版本升级;
    • Resource Manager负责调用为DLA定制化的ROS模板,进行各个阿里云region上DLA服务的初始化;
    • Resource Manager还负责根据集群服务的资源利用率和繁忙情况,控制计算服务节点的水位和ECS水位,其中,ECS水位,通过调用ESS进行弹性伸缩,有效控制集群资源利用率;
    • Frontnode是DLA查询分析服务的入口,多个Frontnode挂载在ALB的EIP后,提供查询访问连接的负载均衡;
    • Computenode为无状态的查询任务计算节点;
    • Meta Store服务为DLA集群的元数据中心,基于VPC内RDS for MySQL存储,为其他服务角色提供统一的元数据存储和查询服务。
  • 通过ALB提供的服务接口支持SingleTunnel VPC、经典网络IPv4和经典网络IPv6的服务入口(Data Lake Analytics是阿里云公共云上第一批支持IPv6服务入口的产品之一:https://www.aliyun.com/solution/ip/ )。

image.png | left | 827x448

3. 针对数据湖存储OSS的分析

3.1 目标用户与应用场景举例

0)对存储在OSS中的数据有数据分析需求的人;
1)熟悉SQL的云上开发和分析人员;
2)对云上数据有临时探索、分析、发现的人;
3)寻求在OSS上构建Data Lake的用户和企业。

image.png | left | 827x403

3.2 典型使用流程

0) 用户把业务产生的数据如Log、CSV、JSON等格式的文件,直接上传到OSS,然后用Data Lake Analytics直接指向文件或者文件夹进行建表查询,使用BI工具进行业务数据分析展现;

image.png | left | 713x104

1)用户在其他Hadoop生态的Legacy系统上有Parquet、ORC、RCFile、Avro等格式的数据,直接复制上传到OSS,然后用Data Lake Analytics直接指向文件或者文件夹进行建表查询,使用BI工具进行业务数据分析展现;

image.png | left | 710x99

2)为了让后续OSS上的数据分析具备更好的查询性能和更低的存储成本,可以把数据进行格式转换,比如转换成Parquet或ORC格式来提升数据反复分析的性价比。

image.png | left | 825x220

在TPC-H原始数据量在1GB的情况下,各类数据格式的对应数据量比例如下图所示。

image.png | left | 827x189

3.3 DBS结合Data Lake Analytics的数据备份查询分析

  • DBS ( https://www.aliyun.com/product/dbs )服务是云数据库的数据备份服务,提供数据的全量和增量备份;
  • DBS备份数据存储在OSS上,存储成本较低;
  • 过去对于备份数据基本没有分析能力,DBS结合DLA后,无需进行备份恢复,就能直接对OSS上的历史备份数据进行分析;
  • DBS结合DLA,使得用户围绕云上数据库的备份与恢复、甚至历史数据分析的整个体验大大提升。

image.png | left | 827x438

4. 结合OSS Select优化DLA的查询性能

OSS Select是OSS团队开发的靠近OSS存储的单文件简单查询分析服务(https://yq.aliyun.com/articles/593910),由于OSS Select更靠近OSS,加上OSS Select对CSV文件的分片索引优化和数据反序列化优化,Data Lake Analytics结合OSS Select在CSV文件的分析场景下,性能提高50% ~ 90%不等,在大文件数据过滤的极端场景下,有数十倍的性能提升。在TPC-H SF 10(原始10GB数据)的workload测试下,DLA开启OSS Select的查询计算下推功能和不开启的查询比较如下图所示。

image.png | left | 523x309

5. 安全与跨云产品访问

安全永远是云上数据访问和操作的标准,Data Lake Analytics在云产品的各个层面follow云上的安全实践:

  • 云账号、子账号在控制台的访问控制;
  • DLA自建服务账号通过KMS信封加密技术,保障用户服务账号的安全性;
  • 采用数据库体验的ACL机制,进行对象的授权与访问控制;
  • 售卖区服务角色全部部署于VPC内,保障计算、服务实例的网络隔离性;
  • 跨云产品的服务访问,全部通过RAM角色授权 + STS方式进行访问。

image.png | left | 827x441

6. Data Lake Analytics数据流

在Data Lake Analytics整体上下游数据流生态中,目前主要支持OSS、Table Store、AnalyticDB和RDS(MySQL、PostgreSQL和SQL Server)。

image.png | left | 827x451

源(Source,查询)和目标(Sink,数据回流)的详细支持情况列表:

数据系统
源(查询
查询优化
目标(数据回流)
写入优化
OSS
1536130838741-5b18bd19-b57a-4c36-b997-fe
支持OSS Select单文件的计算下推优化
1536130838741-5b18bd19-b57a-4c36-b997-fe
Table Store
​​
1536130838741-5b18bd19-b57a-4c36-b997-fe
针对Table Store SDK进行列式压缩调用返回优化,性能提升近4倍
​​
1536130838741-5b18bd19-b57a-4c36-b997-fe
AnalyticDB
​​
1536130838741-5b18bd19-b57a-4c36-b997-fe
支持分区级别并行优化
​​
1536130838741-5b18bd19-b57a-4c36-b997-fe
数据batch insert到AnalyticDB表中
RDS
(MySQL,PostgreSQL,SQL Server)
​​
1536130838741-5b18bd19-b57a-4c36-b997-fe
针对包含AUTO_INCREMENT列的表,进行range切片的数据分片并行查询优化
1536130838741-5b18bd19-b57a-4c36-b997-fe
MongoDB
​​
1536130838741-5b18bd19-b57a-4c36-b997-fe
​​
Redis
​​
1536130838741-5b18bd19-b57a-4c36-b997-fe
​​
PolarDB
​​
1536130838741-5b18bd19-b57a-4c36-b997-fe
​​
1536130838741-5b18bd19-b57a-4c36-b997-fe

7. 小结

Data Lake Analytics(https://www.aliyun.com/product/datalakeanalytics)产品公测二维码:

image.png | left | 212x193

技术介绍、教程、使用相关

应用场景、案例

相关实践学习
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
目录
相关文章
|
搜索推荐 数据可视化 数据挖掘
产品服务数据分析与报告
产品服务数据分析与报告
421 3
|
机器学习/深度学习 人工智能 自然语言处理
如何构建企业级数据智能体:Data Agent 开发实践
本篇将介绍DMS的一款数据分析智能体(Data Agent for Analytics )产品的技术思考和实践。Data Agent for Analytics 定位为一款企业级数据分析智能体, 基于Agentic AI 技术,帮助用户查数据、做分析、生成报告、深入洞察。
|
机器学习/深度学习 人工智能 自然语言处理
构建企业级数据分析助手:Data Agent 开发实践
本篇将介绍DMS的一款数据分析智能体(Data Agent for Analytics )产品的技术思考和实践。Data Agent for Analytics 定位为一款企业级数据分析智能体, 基于Agentic AI 技术,帮助用户查数据、做分析、生成报告、深入洞察。由于不同产品的演进路径,背景都不一样,所以只介绍最核心的部分,来深入剖析如何构建企业级数据分析助手:能力边界定义,技术内核,企业级能力。希望既能作为Data Agent for Analytics产品的技术核心介绍,也能作为读者的开发实践的参考。
1203 2
构建企业级数据分析助手:Data Agent 开发实践
|
9月前
|
人工智能 自然语言处理 数据挖掘
云上玩转Qwen3系列之三:PAI-LangStudio x Hologres构建ChatBI数据分析Agent应用
PAI-LangStudio 和 Qwen3 构建基于 MCP 协议的 Hologres ChatBI 智能 Agent 应用,通过将 Agent、MCP Server 等技术和阿里最新的推理模型 Qwen3 编排在一个应用流中,为大模型提供了 MCP+OLAP 的智能数据分析能力,使用自然语言即可实现 OLAP 数据分析的查询效果,减少了幻觉。开发者可以基于该模板进行灵活扩展和二次开发,以满足特定场景的需求。
|
7月前
|
自然语言处理 安全 数据挖掘
MCP 如何构建企业级数据分析 Agent?
阿里云实时数仓 Hologres,联合函数计算 FC 推出「Hologres + 函数计算 FunctionAI + Qwen 构建企业级数据分析 Agent」方案,帮助用户快速对接 MCP,高效跨越企业级数据分析 Agent 构建困境。
|
8月前
|
人工智能 运维 数据挖掘
一站式智能分析引擎,快速构建企业级数据分析 Agent
本文介绍了一种基于阿里云实时数仓 Hologres 和百炼大模型服务的智能数据分析解决方案。通过 Function AI 提供的 Serverless 平台,企业可快速构建从多源数据接入到业务洞察的端到端流程。方案支持实时数据分析、湖仓直连加速、智能预处理及按需付费模式,大幅降低运维成本并提升效率。同时,文章详细描述了实践部署步骤,包括专有网络配置、Hologres 实例创建、公共数据集导入及应用部署验证等环节,并提供了资源清理指南与参考链接,确保用户能够顺利实施和管理方案。
324 18
|
10月前
|
自然语言处理 安全 数据挖掘
Hologres+函数计算+Qwen3,对接MCP构建企业级数据分析 Agent
本文介绍了通过阿里云Hologres、函数计算FC和通义千问Qwen3构建企业级数据分析Agent的解决方案。大模型在数据分析中潜力巨大,但面临实时数据接入与跨系统整合等挑战。MCP(模型上下文协议)提供标准化接口,实现AI模型与外部资源解耦。方案利用SSE模式连接,具备高实时性、良好解耦性和轻量级特性。Hologres作为高性能实时数仓,支持多源数据毫秒级接入与分析;函数计算FC以Serverless模式部署,弹性扩缩降低成本;Qwen3则具备强大的推理与多语言能力。用户可通过ModelScope的MCP Playground快速体验,结合TPC-H样例数据完成复杂查询任务。
|
9月前
|
自然语言处理 安全 数据挖掘
通过 MCP 构建企业级数据分析 Agent
本文介绍了使用阿里云实时数仓 Hologres、函数计算 FC 和通义大模型 Qwen3 构建企业级数据分析 Agent 的方法。通过 MCP(模型上下文协议)标准化接口,解决大模型与外部工具和数据源集成的难题。Hologres 提供高性能数据分析能力,支持实时数据接入和湖仓一体分析;函数计算 FC 提供弹性、安全的 Serverless 运行环境;Qwen3 具备强大的多语言处理和推理能力。方案结合 ModelScope 的 MCP Playground,实现高效的服务化部署,帮助企业快速构建跨数据源、多步骤分解的数据分析 Agent,优化数据分析流程并降低成本。
1063 31
|
SQL 分布式计算 DataWorks
DataWorks操作报错合集之在运行数据分析任务时,底层依赖服务alisa.olap.submitjob出现了异常,如何解决
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
|
机器学习/深度学习 数据采集 数据挖掘
Python 的科学计算和数据分析: 解释什么是数据规整(Data Wrangling)?
【4月更文挑战第15天】数据规整是将原始数据转化为适合分析和建模的格式的关键步骤,涉及缺失值处理(删除、填充、插值)、异常值检测与处理、数据类型转换、重采样、数据合并、特征选择和特征变换等任务。这些预处理步骤确保数据质量和准确性,为后续的数据分析和机器学习模型构建奠定基础。
553 4