如何快速搭建云原生企业级数据湖架构及实践分享

简介: 众所周知,数据湖技术在大数据领域炙手可热,随着在云上的广泛部署和应用,其业务价值逐渐获得业界共识。如何快搭建数据湖架构被越来越多的企业探讨。本文主要分享快速搭建云原生企业级数据湖架构及实践分享。


王震,阿里云计算平台事业部 开源大数据平台 技术专家

本文根据王震在 2021开源大数据技术线上Meetup#0821 分享整理


直播回放链接:https://developer.aliyun.com/live/247227


内容框架:

  • 背景介绍
  • 如何使用 DLF数据湖
  • 实操演示


一、背景介绍

什么是数据湖  

数据湖:以一定规则形式存储各种类型的数据

  • 结构化数据( Orc 、Parquet )
  • 半结构化数据 ( Json 、Xml )
  • 非结构化数据(图像 、视频)


为什么需要数据湖    

1、数据规模进一步扩大

  • 大数据存储需要治理
  • 数据治理需要厘清数据依赖关系(血缘)
  • 用户需要明确大数据整体成本(TCO)


2、数据来源多样化

  • 事务数据(MySQL, SqlServer)
  • 搜索数据 (SOLR)
  • 批处理数据 (SPARK, HIVE)


3、数据格式多样化

  • Parquet / Orc / Avro / Csv / Json / Text


4、数据分析场景多样化

  • 基于语义的搜索分析
  • 随机/近实时 OLAP 分析


5、数据分析用户多元化

  • 分析用户角色多元化 (开发/测试/数据/BI)
  • 用户数据访问合规管控诉求


数据湖能做什么

1、针对数据规模进一步扩大

  • 数据湖提供 【数据血缘】服务
  • 数据湖提供 【数据治理】服务
  • 数据湖帮助用户明确大数据的整体成本


2、针对数据来源多样化

  • DLF 提供【统一元数据】服务

解决多引擎元数据一致性问题

解决元数据使用和维护成本问题


3、针对数据格式多样化

  • DLF 提供【数据入湖/元数据爬取】服务

支持 MYSQL/KAFKA 入湖,元数据爬取

支持离线/实时入湖, 满足不同业务时效要求

支持 DELTA/HUDI 等数据湖格式


4、针对数据分析场景多样化

  • DLF 提供【统一元数据服务】

可以切换不同引擎 MC/EMR/DDI

数据探索在不同引擎之间一致


5、针对数据分析用户多元化

  • 数据湖提供【访问权限控制】服务

多引擎下的数据访问集中授权/避免反复授权

解决多用户数据访问合规问题

  • 数据湖提供【访问日志审计】服务

解决用用户数据访问合规审查问题

image.png

二、如何使用 DLF 数据湖

数据入湖

1、大量异构外部数据源【数据入湖】服务

  • 全量导入 : 批量入湖一次导入
  • 增量导入 : 实时入湖流失增量导入

image.png

2、大量现存Hadoop生态数据 【元数据爬取】服务

  • 将数据导入数据湖OSS进行存储
  • 元数据爬取 提取原有数据schema

image.png

数据查询

数据湖【统一元数据】服务支持多种引擎查询

  • 使用数据探索(SPARK)对入湖数据进行探查
  • 使用MAXCOMPUTE对数据进行深度复杂加工
  • 使用Databricks DDI专用集群对数据进行探索
  • 更多引擎支持中…

image.png

数据治理

一、使用【权限访问控制】服务控制数据访问

  • 进行 库/表/列 级别的访问权限设置
  • 统一的元数据,只需要设置一次


二、使用【数据治理】服务明确大数据总成本

  • 日/周/月 级别的存储使用情况 – 及时释放过时的大存储文件
  • 日/周/月 级别的计算使用情况 – 及时识别数据上的异常计算


三、实操演示

数据湖构建 DLF 体验链接:https://dlf.console.aliyun.com/



点击回放链接,直接观看直播视频回放,获取讲师实例讲解:

   https://developer.aliyun.com/live/247227





不错过每次直播信息、探讨更多数据湖相关技术问题,欢迎扫码加入钉钉交流群!

lADPD26eQD1BXgfNA97NAu4_750_990.jpg

相关文章
|
7月前
|
数据采集 监控 API
移动端性能监控探索:iOS RUM SDK 技术架构与实践
阿里云 RUM SDK 作为一款性能体验监控采集工具,可以作为辅助 App 运维的强有力助手,提升您的问题排查效率。
417 63
|
7月前
|
存储 运维 分布式计算
零售数据湖的进化之路:滔搏从Lambda架构到阿里云Flink+Paimon统一架构的实战实践
在数字化浪潮席卷全球的今天,传统零售企业面临着前所未有的技术挑战和转型压力。本文整理自 Flink Forward Asia 2025 城市巡回上海站,滔搏技术负责人分享了滔搏从传统 Lambda 架构向阿里云实时计算 Flink 版+Paimon 统一架构转型的完整实战历程。这不仅是一次技术架构的重大升级,更是中国零售企业拥抱实时数据湖仓一体化的典型案例。
524 0
|
8月前
|
数据采集 运维 数据可视化
AR 运维系统与 MES、EMA、IoT 系统的融合架构与实践
AR运维系统融合IoT、EMA、MES数据,构建“感知-分析-决策-执行”闭环。通过AR终端实现设备数据可视化,实时呈现温度、工单等信息,提升运维效率与生产可靠性。(238字)
|
8月前
|
数据采集 存储 运维
MyEMS:技术架构深度剖析与用户实践支持体系
MyEMS 是一款开源能源管理系统,采用分层架构设计,涵盖数据采集、传输、处理与应用全流程,支持多协议设备接入与多样化能源场景。系统具备高扩展性与易用性,结合完善的文档、社区、培训与定制服务,助力不同技术背景用户高效实现能源数字化管理,降低使用门槛与运维成本,广泛适用于工业、商业及公共机构等场景。
342 0
|
7月前
|
存储 SQL 消息中间件
从 ClickHouse 到 StarRocks 存算分离: 携程 UBT 架构升级实践
查询性能实现从秒级到毫秒级的跨越式提升
|
7月前
|
人工智能 Cloud Native 算法
拔俗云原生 AI 临床大数据平台:赋能医学科研的开发者实践
AI临床大数据科研平台依托阿里云、腾讯云,打通医疗数据孤岛,提供从数据治理到模型落地的全链路支持。通过联邦学习、弹性算力与安全合规技术,实现跨机构协作与高效训练,助力开发者提升科研效率,推动医学AI创新落地。(238字)
469 7
|
8月前
|
存储 弹性计算 Cloud Native
云原生数据库的演进与应用实践
随着企业业务扩展,传统数据库难以应对高并发与弹性需求。云原生数据库应运而生,具备计算存储分离、弹性伸缩、高可用等核心特性,广泛应用于电商、金融、物联网等场景。阿里云PolarDB、Lindorm等产品已形成完善生态,助力企业高效处理数据。未来,AI驱动、Serverless与多云兼容将推动其进一步发展。
409 8
|
8月前
|
消息中间件 缓存 监控
中间件架构设计与实践:构建高性能分布式系统的核心基石
摘要 本文系统探讨了中间件技术及其在分布式系统中的核心价值。作者首先定义了中间件作为连接系统组件的"神经网络",强调其在数据传输、系统稳定性和扩展性中的关键作用。随后详细分类了中间件体系,包括通信中间件(如RabbitMQ/Kafka)、数据中间件(如Redis/MyCAT)等类型。文章重点剖析了消息中间件的实现机制,通过Spring Boot代码示例展示了消息生产者的完整实现,涵盖消息ID生成、持久化、批量发送及重试机制等关键技术点。最后,作者指出中间件架构设计对系统性能的决定性影响,
|
8月前
|
前端开发 Java 开发者
MVC 架构模式技术详解与实践
本文档旨在全面解析软件工程中经典且至关重要的 MVC(Model-View-Controller) 架构模式。内容将深入探讨 MVC 的核心思想、三大组件的职责与交互关系、其优势与劣势,并重点分析其在现代 Web 开发中的具体实现,特别是以 Spring MVC 框架为例,详解其请求处理流程、核心组件及基本开发实践。通过本文档,读者将能够深刻理解 MVC 的设计哲学,并掌握基于该模式进行 Web 应用开发的能力。
1683 1
|
边缘计算 Kubernetes 物联网
Kubernetes 赋能边缘计算:架构解析、挑战突破与实践方案
在物联网和工业互联网快速发展的背景下,边缘计算凭借就近处理数据的优势,成为解决云计算延迟高、带宽成本高的关键技术。而 Kubernetes 凭借统一管理、容器化适配和强大生态扩展性,正逐步成为边缘计算的核心编排平台。本文系统解析 Kubernetes 适配边缘环境的架构分层、核心挑战与新兴解决方案,为企业落地边缘项目提供实践参考。
716 0