开源大数据平台 E-MapReduce的搜索结果_热门

开源大数据EMR

|

博文

|

主要介绍Relational Cache/物化视图的历史和背景，以及EMR Spark基于Relational Cache加速Spark查询的技术方案，及如何通过基于Relational Cache的数据预计算和预组织，使用Spark支持亚秒级响应的交互式分析使用场景。

# 开源大数据平台 E-MapReduce # SQL # 分布式计算 # Spark

阿里云E-MapReduce团队

|

博文

|

来自：大数据与机器学习

使用 E-MapReduce 构建云上数据湖

本篇来自于阿里巴巴E-MapReduce(简称为EMR)产品经理子关，分享云上使用E-MapReduce快速构建企业数据湖的落地方案以及客户最佳实践。

# 开源大数据平台 E-MapReduce # 实时计算 Flink版 # 云服务器 ECS # 弹性伸缩 # 云原生大数据计算服务 MaxCompute # 对象存储 # 大数据开发治理平台 DataWorks # 存储 # 机器学习/深度学习 # SQL # 弹性计算 # 分布式计算 # 大数据 # 对象存储 # 数据安全/隐私保护 # 流计算 # Spark

扬流

|

博文

|

来自：大数据与机器学习

水滴筹基于阿里云 EMR StarRocks 实战分享

水滴筹大数据部门的数据开发工程师韩园园老师为大家分享水滴筹基于阿里云EMR StarRocks的实战经验。

# 开源大数据平台 E-MapReduce # 数据管理 # 云数据库 ClickHouse # 云原生数据仓库AnalyticDB MySQL版 # 云原生大数据计算服务 MaxCompute # SQL # 存储 # 监控 # OLAP # BI

墨祤

|

博文

|

来自：大数据与机器学习

阿里云EMR Serverless StarRocks 内容合集

阿里云 EMR StarRocks 提供存算分离架构，支持实时湖仓分析，适用于多种 OLAP 场景。结合 Paimon 与 Flink，助力企业高效处理海量数据，广泛应用于游戏、教育、生活服务等领域，显著提升数据分析效率与业务响应速度。

# 开源大数据平台 E-MapReduce # DataWorks # 数据挖掘 # Serverless # OLAP # 流计算

阿里云E-MapReduce团队

|

博文

|

来自：大数据与机器学习

Spark MLlib中KMeans聚类算法的解析和应用

聚类算法是机器学习中的一种无监督学习算法，它在数据科学领域应用场景很广泛，比如基于用户购买行为、兴趣等来构建推荐系统。

# 开源大数据平台 E-MapReduce # 云解析DNS # 机器学习/深度学习 # 分布式计算 # 算法 # 搜索推荐 # 数据挖掘 # 大数据 # 关系型数据库 # MySQL # Apache # Spark

开源大数据EMR

|

博文

|

来自：大数据与机器学习

EMR Spark-SQL性能极致优化揭秘 Native Codegen Framework

SparkSQL多年来的性能优化集中在Optimizer和Runtime两个领域。前者的目的是为了获得最优的执行计划，后者的目的是针对既定的计划尽可能执行的更快。

# 开源大数据平台 E-MapReduce # 云原生大数据计算服务 MaxCompute # SQL # 分布式计算 # Java # 大数据 # BI # HIVE # Spark # C++ # Python # MaxCompute

阿里云E-MapReduce团队

|

博文

|

来自：大数据与机器学习

超详攻略！Databricks 数据洞察 - 企业级全托管 Spark 大数据分析平台及案例分析

5分钟读懂 Databricks 数据洞察 ~ 更多详细信息可登录 Databricks 数据洞察产品链接：https://www.aliyun.com/product/bigdata/spark（当前产品提供￥599首购试用活动，欢迎试用！）

# 开源大数据平台 E-MapReduce # 云数据库 RDS MySQL 版 # 云原生大数据计算服务 MaxCompute # 对象存储 # 存储 # 机器学习/深度学习 # 人工智能 # 分布式计算 # 大数据 # 数据挖掘 # BI # 调度 # 对象存储 # Spark

阿里云E-MapReduce团队

|

博文

|

来自：大数据与机器学习

【详谈 Delta Lake 】系列技术专题之基础和性能（Fundamentals and Performance）

本文翻译自大数据技术公司 Databricks 针对数据湖 Delta Lake 的系列技术文章。众所周知，Databricks 主导着开源大数据社区 Apache Spark、Delta Lake 以及 ML Flow 等众多热门技术，而 Delta Lake 作为数据湖核心存储引擎方案给企业带来诸多的优势。本系列技术文章，将详细展开介绍 Delta Lake。

# 开源大数据平台 E-MapReduce # 云原生大数据计算服务 MaxCompute # 日志服务 # SQL # 存储 # 数据采集 # 缓存 # 分布式计算 # 大数据 # 测试技术 # API # Apache # Spark

扬流

|

博文

|

来自：大数据与机器学习

深度解析数据湖存储方案Lakehouse架构【Databricks 数据洞察公开课】

从数据仓库、数据湖的优劣势，湖仓一体架构的应用和优势等多方面深度解析Lakehouse架构。

# 开源大数据平台 E-MapReduce # 对象存储 # 日志服务 # 云解析DNS # 存储 # 数据采集 # 机器学习/深度学习 # 分布式计算 # 大数据 # BI # 数据库 # 对象存储 # Spark # 数据格式

yq传送门

|

问答

Scala问答集锦

# 开源大数据平台 E-MapReduce # 云数据库 RDS MySQL 版 # 对象存储 # 分布式计算 # JavaScript # Java # Scala # 对象存储 # Spark # C++ # 数据格式 # 流计算 # Ruby

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

开源大数据平台 E-MapReduce