数据湖构建的搜索结果_热门-阿里云开发者社区

扬流

|

博文

|

本文整理自阿里云开源大数据技术专家陈鑫伟在7月17日阿里云数据湖技术专场交流会的分享。

# 开源大数据平台 E-MapReduce # 数据湖构建 # 云原生数据仓库 AnalyticDB PostgreSQL版 # 云原生大数据计算服务 MaxCompute # 对象存储 # 存储 # SQL # 分布式计算 # Cloud Native # Hadoop # 大数据 # 对象存储 # HIVE # Spark # 流计算

skin778

|

博文

|

来自：数据库

“数据湖”：概念、特征、架构与案例

作者：惊玄

# 云原生大数据计算服务 MaxCompute # 终端访问控制系统 # 日志服务 # 云原生数据仓库AnalyticDB MySQL版 # 数据集成 Data Integration # 数据湖构建 # 数据管理 # 函数计算 # 云原生数据仓库 AnalyticDB PostgreSQL版 # 对象存储 # 实时计算 Flink版 # 访问控制 # 存储 # SQL # 分布式计算 # 大数据 # 数据挖掘 # 数据处理 # 数据库 # 对象存储 # Spark # 流计算

扬流

|

博文

|

来自：大数据与机器学习

关于 Data Lake 的概念、架构与应用场景介绍

本文详细介绍了 Data Lake 的概念、架构与应用场景介绍。

# 开源大数据平台 E-MapReduce # 数据管理 # 实时计算 Flink版 # 对象存储 # 云原生大数据计算服务 MaxCompute # 数据湖构建 # 大数据开发治理平台 DataWorks # 云原生数据仓库AnalyticDB MySQL版 # 存储 # 数据采集 # 运维 # 分布式计算 # 大数据 # 数据管理 # MaxCompute # 对象存储 # 流计算 # 数据格式

阿里云E-MapReduce团队

|

博文

|

来自：大数据与机器学习

百草味基于“ EMR+Databricks+DLF ”构建云上数据湖的最佳实践

本文介绍了百草味大数据平台从 IDC 自建 Hadoop 到阿里云数据湖架构的迁移方案和落地过程。重点从 IDC 自建集群的痛点分析，云上大数据方案的选型以及核心模块的建设过程几个方面做了详细的介绍，希望给想了解和实践数据湖架构的企业和朋友一个参考。

# 开源大数据平台 E-MapReduce # 数据湖构建 # 云数据库 RDS MySQL 版 # 云原生大数据计算服务 MaxCompute # 对象存储 # 数据安全中心 # 存储 # SQL # 分布式计算 # 运维 # 大数据 # Hadoop # 调度 # 对象存储 # 数据安全/隐私保护 # Spark

阿里云E-MapReduce团队

|

博文

数禾云上数据湖最佳实践

数禾科技从成立伊始就组建了大数据团队并搭建了大数据平台。并在ECS上搭建了自己的Cloudera Hadoop集群。但随着公司互联网金融业务的快速扩张发展，大数据团队承担的责任也越来越重，实时数仓需求，日志分析需求，即席查询需求，数据分析需求等，每个业务提出的需求都极大的考验这个Cloudera Hadoop集群的能力。为了减轻Cloudera集群的压力，我们结合自身业务情况，在阿里云上落地一个适合数禾当前现实状况的数据湖。

# 对象存储 # 云原生数据仓库AnalyticDB MySQL版 # 云监控 # 数据湖构建 # 云原生大数据计算服务 MaxCompute # 日志服务 # 负载均衡 # 数据管理 # 云服务器 ECS # 弹性伸缩 # 云原生数据仓库 AnalyticDB PostgreSQL版 # 云数据库 RDS MySQL 版 # 专有网络VPC # 云解析DNS # 存储 # SQL # 弹性计算 # 分布式计算 # 对象存储 # 监控 # 大数据 # 调度 # MaxCompute # HIVE

探索云世界动手实践

|

10月前

|

博文

基于阿里云大数据平台的实时数据湖构建与数据分析实战

在大数据时代，数据湖作为集中存储和处理海量数据的架构，成为企业数据管理的核心。阿里云提供包括MaxCompute、DataWorks、E-MapReduce等在内的完整大数据平台，支持从数据采集、存储、处理到分析的全流程。本文通过电商平台案例，展示如何基于阿里云构建实时数据湖，实现数据价值挖掘。平台优势包括全托管服务、高扩展性、丰富的生态集成和强大的数据分析工具。

# 数据湖构建 # 云原生大数据计算服务 MaxCompute # 存储 # 分布式计算 # 大数据 # 数据挖掘 # MaxCompute

阿里云E-MapReduce团队

|

博文

|

来自：大数据与机器学习

数据湖构建服务搭配Delta Lake玩转CDC实时入湖

Change Data Capture(CDC)用来跟踪捕获数据源的数据变化，并将这些变化同步到目标存储(如数据湖或数据仓库)，用于数据备份或后续分析，同步过程可以是分钟/小时/天等粒度，也可以是实时同步。CDC方案分为侵入式(intrusive manner)和非倾入性(non-intrusive manner)两种。

# 数据湖构建 # 日志服务 # SQL # 存储 # 分布式计算 # Java # 数据库连接 # 分布式数据库 # HIVE # 流计算 # Spark # Hbase

周周的奇妙编程

|

博文

数据处理的艺术：EMR Serverless Spark实践及应用体验

阿里云EMR Serverless Spark是基于Spark的全托管大数据处理平台，融合云原生弹性与自动化，提供任务全生命周期管理，让数据工程师专注数据分析。它内置高性能Fusion Engine，性能比开源Spark提升200%，并有成本优化的Celeborn服务。支持计算存储分离、OSS-HDFS兼容、DLF元数据管理，实现一站式的开发体验和Serverless资源管理。适用于数据报表、科学项目等场景，简化开发与运维流程。用户可通过阿里云控制台快速配置和体验EMR Serverless Spark服务。

# 实时计算 Flink版 # 对象存储 # 云原生大数据计算服务 MaxCompute # 函数计算 # 数据湖构建 # 分布式计算 # Hadoop # Serverless # 数据处理 # Spark

阿里云E-MapReduce团队

|

博文

|

来自：大数据与机器学习

云原生数据湖构建、分析与开发治理最佳实践及案例分享

什么是数据湖？又如何对对数据湖进行分析与开发治理？本文深入浅出的介绍了云原生数据湖构建、分析与开发治理最佳实践及案例分享。

# 数据湖构建 # 对象存储 # 云原生数据仓库AnalyticDB MySQL版 # 数据集成 Data Integration # 大数据开发治理平台 DataWorks # 弹性伸缩 # 云原生大数据计算服务 MaxCompute # 数据安全中心 # 终端访问控制系统 # 日志服务 # 实时计算 Flink版 # 云数据库 RDS MySQL 版 # 访问控制 # 存储 # 弹性计算 # 分布式计算 # DataWorks # Cloud Native # 大数据 # BI # 调度 # 对象存储 # 监控

扬流

|

博文

|

来自：大数据与机器学习

国内首批！阿里云云原生数据湖产品通过信通院评测认证

国内首批！得分排名第一！

# 开源大数据平台 E-MapReduce # 云原生大数据计算服务 MaxCompute # 对象存储 # 数据管理 # 数据湖构建 # 大数据开发治理平台 DataWorks # 存储 # 弹性计算 # 运维 # DataWorks # Cloud Native # 安全 # 大数据 # 数据管理 # 对象存储 # 容器

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

数据湖构建