开源大数据平台 E-MapReduce的搜索结果_热门

扬流

|

博文

|

来自：大数据与机器学习

Paimon 与 Spark 的集成（二）：查询优化

通过一系列优化，我们将 Paimon x Spark 在 TpcDS 上的性能提高了37+%，已基本和 Parquet x Spark 持平，本文对其中的关键优化点进行了详细介绍。

# 云原生数据仓库AnalyticDB MySQL版 # 开源大数据平台 E-MapReduce # 云原生大数据计算服务 MaxCompute # SQL # 分布式计算 # 大数据 # Spark # Apache

阿里云大数据

|

8月前

|

博文

|

来自：大数据与机器学习

千万级数据秒级响应！碧桂园基于 EMR Serverless StarRocks 升级存算分离架构实践

碧桂园服务通过引入 EMR Serverless StarRocks 存算分离架构，解决了海量数据处理中的资源利用率低、并发能力不足等问题，显著降低了硬件和运维成本。实时查询性能提升8倍，查询出错率减少30倍，集群数据 SLA 达99.99%。此次技术升级不仅优化了用户体验，还结合AI打造了“一看”和“—问”智能场景助力精准决策与风险预测。

# 函数计算 # 开源大数据平台 E-MapReduce # 存储 # 运维 # Serverless # BI # OLAP

扬流

|

博文

|

来自：大数据与机器学习

降本60% ，阿里云 EMR StarRocks 全新发布存算分离版本

阿里云 EMR Serverless StarRocks 现已推出全新存算分离版本，该版本不仅基于开源 StarRocks 进行了全面优化，实现了存储与计算解耦架构，还在性能、弹性伸缩以及多计算组隔离能力方面取得了显著进展。

# 云原生数据仓库AnalyticDB MySQL版 # 开源大数据平台 E-MapReduce # 函数计算 # 对象存储 # SQL # 存储 # 缓存 # Serverless # 对象存储

开源大数据EMR

|

博文

|

来自：大数据与机器学习

是时候放弃 Spark Streaming, 转向 Structured Streaming 了

正如在之前的那篇文章中 Spark Streaming 设计原理中说到 Spark 团队之后对 Spark Streaming 的维护可能越来越少，Spark 2.4 版本的 Release Note 里面果然一个 Spark Streaming 相关的 ticket 都没有。

# 开源大数据平台 E-MapReduce # 云消息队列 Kafka 版 # 实时计算 Flink版 # 存储 # 分布式计算 # API # 流计算 # Spark

开源大数据EMR

|

博文

|

来自：大数据与机器学习

Data Lake 三剑客——Delta、Hudi、Iceberg 对比分析

定性上讲，三者均为 Data Lake 的数据存储中间层，其数据管理的功能均是基于一系列的 meta 文件。meta 文件的角色类似于数据库的 catalog/wal，起到 schema 管理、事务管理和数据管理的功能。

# 开源大数据平台 E-MapReduce # 云原生大数据计算服务 MaxCompute # SQL # 存储 # 分布式计算 # Hadoop # 数据管理 # API # Apache # HIVE # Spark # 流计算

扬流

|

博文

|

来自：大数据与机器学习

重磅发布！阿里云全链路数据湖开发治理解决方案

阿里云重磅发布全链路数据湖解决方案，主要包含开源大数据平台E-MapReduce(EMR) + 一站式大数据数据开发治理平台DataWorks + 数据湖构建DLF + 对象存储OSS等核心产品。

# 开源大数据平台 E-MapReduce # 弹性伸缩 # 数据安全中心 # 对象存储 # 云原生大数据计算服务 MaxCompute # 大数据开发治理平台 DataWorks # 数据集成 Data Integration # 数据采集 # SQL # 弹性计算 # 运维 # 分布式计算 # DataWorks # 数据可视化 # 大数据 # 调度 # 对象存储

扬流

|

博文

|

来自：大数据与机器学习

阿里云 EMR Serverless StarRocks3.x，极速统一的湖仓新范式

EMR StarRocks 线上公开课第1期，直播主题：EMR Serverless StarRocks3.x，极速统一的湖仓新范式。

# 云原生数据仓库AnalyticDB MySQL版 # 大数据开发治理平台 DataWorks # 开源大数据平台 E-MapReduce # 弹性伸缩 # 函数计算 # 云原生数据仓库 AnalyticDB PostgreSQL版 # 对象存储 # 存储 # SQL # 数据可视化 # OLAP # 对象存储

开源大数据EMR

|

博文

|

来自：大数据与机器学习

SparkSQL DatasourceV2 之 Multiple Catalog

SparkSQL DatasourceV2作为Spark2.3引入的特性，在Spark 3.0 preview(2019/12/23)版本中又有了新的改进以更好的支持各类数据源。本文将从catalog角度，介绍新的数据源如何和Spark DatasourceV2进行集成。

# 开源大数据平台 E-MapReduce # 云解析DNS # SQL # 分布式计算 # 大数据 # 关系型数据库 # 数据挖掘 # Apache # 数据库 # HIVE # Spark # PostgreSQL

开发者说

|

博文

|

来自：大数据与机器学习

限免首发 | Spark 企业级实战集锦，国内Spark开发者的进阶指南！

《Apache Spark 中文实战攻略》上下两册电子书重磅来袭，本书集结国内外顶级大厂技术专家，汇集多年实战经验，带你走进全球顶级开源社区之一 Apache Spark，探秘时下最流行的开源分布式内存式大数据处理引擎。

# 开源大数据平台 E-MapReduce # 容器服务Kubernetes版 # 云原生大数据计算服务 MaxCompute # 分布式计算 # Spark # Apache # 大数据 # 容器 # Kubernetes # 数据挖掘 # 机器学习/深度学习 # 算法框架/工具 # 知识图谱

灵杰开发者

|

博文

|

来自：大数据与机器学习

使用 Databricks 进行营销效果归因分析的应用实践【Databricks 数据洞察公开课】

本文介绍如何使用Databricks进行广告效果归因分析，完成一站式的部署机器学习，包括数据ETL、数据校验、模型训练/评测/应用等全流程。

# 开源大数据平台 E-MapReduce # 机器学习/深度学习 # 存储 # 数据采集 # 搜索推荐 # 数据挖掘 # 大数据 # API # 索引 # Python

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

开源大数据平台 E-MapReduce