开源大数据平台 E-MapReduce的搜索结果_热门

DreamSpark

|

博文

|

从了解到部署实践，全方位带你体验大数据平台EMR Serverless Spark的魅力。

# 云消息队列 Kafka 版 # 云原生数据仓库AnalyticDB MySQL版 # 日志服务 # 对象存储 # 云原生大数据计算服务 MaxCompute # 函数计算 # 大数据开发治理平台 DataWorks # 开源大数据平台 E-MapReduce # SQL # 分布式计算 # Java # Serverless # Spark

墨祤

|

10月前

|

博文

|

来自：大数据与机器学习

基于OpenLake的Flink+Paimon+EMR StarRocks流式湖仓分析

阿里云OpenLake解决方案建立在开放可控的OpenLake湖仓之上，提供大数据搜索与AI一体化服务。通过元数据管理平台DLF管理结构化、半结构化和非结构化数据，提供湖仓数据表和文件的安全访问及IO加速，并支持大数据、搜索和AI多引擎对接。本文为您介绍以Flink作为Openlake方案的核心计算引擎，通过流式数据湖仓Paimon（使用DLF 2.0存储）和EMR StarRocks搭建流式湖仓。

# 云原生数据仓库AnalyticDB MySQL版 # 域名与网站 # 开源大数据平台 E-MapReduce # 云数据库 RDS MySQL 版 # 实时计算 Flink版 # 专有网络VPC # SQL # 流计算 # 关系型数据库 # MySQL # 数据库

阿里云大数据

|

7月前

|

博文

|

来自：大数据与机器学习

阿里云 EMR Serverless Spark 在微财机器学习场景下的应用

面对机器学习场景下的训练瓶颈，微财选择基于阿里云 EMR Serverless Spark 建立数据平台。通过 EMR Serverless Spark，微财突破了单机训练使用的数据规模瓶颈，大幅提升了训练效率，解决了存算分离架构下 Shuffle 稳定性和性能困扰，为智能风控等业务提供了强有力的技术支撑。

# 函数计算 # 云原生大数据计算服务 MaxCompute # 开源大数据平台 E-MapReduce # 机器学习/深度学习 # 分布式计算 # 大数据 # Serverless # Spark

鸿初

|

博文

|

来自：大数据与机器学习

hive在E-MapReduce集群的实践（二）集群hive参数优化

本文介绍一些常见的集群跑hive作业参数优化，可以根据业务需要来使用。提高hdfs性能修改hdfs-site，注意重启hdfs服务 dfs.client.read.shortcircuit=true //直读 dfs.

# 开源大数据平台 E-MapReduce # SQL # 大数据 # HIVE

鸿初

|

博文

|

来自：大数据与机器学习

Presto实现原理（转）

Presto架构 Presto查询引擎是一个Master-Slave的架构，由一个Coordinator节点，一个Discovery Server节点，多个Worker节点组成，Discovery Server通常内嵌于Coordinator节点中。Coordinator负责解析SQL语句，生

# 开源大数据平台 E-MapReduce # 云解析DNS # SQL # 缓存 # 大数据 # Java # HIVE

寒沙牧

|

博文

|

来自：大数据与机器学习

SparkSQL自适应执行

阿里云EMR-3.13.0版本的SparkSQL支持自适应执行功能，用来解决Reduce个数的动态调整/数据倾斜/执行计划的动态优化问题。

# 开源大数据平台 E-MapReduce # SQL # 调度 # 分布式计算 # Spark

阿里云E-MapReduce团队

|

博文

|

来自：大数据与机器学习

使用Spark SQL进行流式机器学习计算（上）

什么是流式机器学习，机器学习模型获取途径，系统演示

# 开源大数据平台 E-MapReduce # 云数据库 RDS MySQL 版 # 机器学习/深度学习 # SQL # 分布式计算 # 算法 # Spark # 关系型数据库 # RDS # 数据可视化 # 开发工具 # git

开源大数据EMR

|

博文

|

来自：大数据与机器学习

Apache Spark3.0什么样？一文读懂Apache Spark最新技术发展与展望

阿里巴巴高级技术专家李呈祥带来了《Apache Spark 最新技术发展和3.0+ 展望》的全面解析，为大家介绍了Spark在整体IT基础设施上云背景下的新挑战和最新技术进展，同时预测了Spark 3.0即将重磅发布的新功能。

# 开源大数据平台 E-MapReduce # 容器服务Kubernetes版 # GPU云服务器 # 云原生大数据计算服务 MaxCompute # 对象存储 # 机器学习/深度学习 # 存储 # 分布式计算 # Apache # Spark

开源大数据EMR

|

博文

|

来自：大数据与机器学习

Spark 数据倾斜及其解决方案

本文从数据倾斜的危害、现象、原因等方面，由浅入深阐述Spark数据倾斜及其解决方案。

# 开源大数据平台 E-MapReduce # 云原生大数据计算服务 MaxCompute # SQL # 人工智能 # 分布式计算 # 并行计算 # 负载均衡 # Hadoop # 大数据 # HIVE # Spark # 流计算

开源大数据EMR

|

博文

|

来自：大数据与机器学习

Apache iceberg：Netflix 数据仓库的基石

Apache Iceberg 是一种用于跟踪超大规模表的新格式，是专门为对象存储（如S3）而设计的。本文将介绍为什么 Netflix 需要构建 Iceberg，Apache Iceberg 的高层次设计，并会介绍那些能够更好地解决查询性能问题的细节。

# 开源大数据平台 E-MapReduce # SQL # 存储 # 分布式计算 # 自然语言处理 # 大数据 # Apache # HIVE # 对象存储 # Spark # 流计算

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

开源大数据平台 E-MapReduce