开源大数据平台 E-MapReduce的搜索结果_热门

寒沙牧

|

博文

|

来自：大数据与机器学习

YARN ResourceManager重启作业保留机制

YARN可以通过相关配置支持ResourceManager重启过程中，不影响正在运行的作业，即重启后，作业还能正常继续运行直到结束

# 开源大数据平台 E-MapReduce # SQL # 资源调度 # 测试技术 # Apache # HIVE

鸿初

|

博文

|

来自：大数据与机器学习

hive在E-MapReduce集群的实践（一）hive异常排查入门

hive是hadoop集群最常用的数据分析工具，只要运行sql就可以分析海量数据。初学者在使用hive时，经常会遇到各种问题，不知道该怎么解决。本文是hive实践系列的第一篇，以E-MapReduce集群环境为例，介绍常见的hive执行异常，定位和解决方法，以及hive日志查看方法。

# 开源大数据平台 E-MapReduce # 域名与网站 # 日志服务 # SQL # 分布式计算 # 监控 # 大数据 # HIVE

寒沙牧

|

博文

|

来自：大数据与机器学习

SparkSQL自适应执行

阿里云EMR-3.13.0版本的SparkSQL支持自适应执行功能，用来解决Reduce个数的动态调整/数据倾斜/执行计划的动态优化问题。

# 开源大数据平台 E-MapReduce # SQL # 调度 # 分布式计算 # Spark

阿里云E-MapReduce团队

|

博文

|

来自：大数据与机器学习

Adaptive Execution如何让Spark SQL更高效更好用？

本文转发自技术世界，原文链接　http://www.jasongj.com/spark/adaptive_execution/ 1 背景 Spark SQL / Catalyst 和 CBO 的优化，从查询本身与目标数据的特点的角度尽可能保证了最终生成的执行计划的高效性。

# 开源大数据平台 E-MapReduce # SQL # 分布式计算 # Spark

xy_xin

|

博文

|

来自：大数据与机器学习

漫谈分布式计算框架

本文主要谈了一些分布式计算框架方面的心得。

# 开源大数据平台 E-MapReduce # 分布式计算 # 并行计算 # TensorFlow # 算法框架/工具 # Spark

鱼跟猫

|

博文

|

来自：大数据与机器学习

使用Spark SQL进行流式机器学习计算（上）

今天来和大家简单说一下如何使用Spark SQL进行流式数据的机器学习处理

# 开源大数据平台 E-MapReduce # 云数据库 RDS MySQL 版 # 机器学习/深度学习 # SQL # 分布式计算 # 算法 # Spark

云无谓

|

博文

|

来自：大数据与机器学习

使用spark-redis组件访问云数据库Redis

本文演示了在Spark Shell中通过spark-redis组件读写Redis数据的场景。所有场景在阿里云E-MapReduce集群内完成，Redis使用阿里云数据库Redis

# 云数据库 Tair（兼容 Redis） # 开源大数据平台 E-MapReduce # NoSQL # Redis # 分布式计算 # 数据库 # Spark

开源大数据EMR

|

博文

|

来自：大数据与机器学习

JindoFS概述：云原生的大数据计算存储分离方案

JindoFS 是一套新的云原生的数据湖解决方案。在 JindoFS 之前，云上客户主要使用 HDFS 和 OSS/S3 作为大数据存储。HDFS 是 Hadoop 原生的存储系统，10 年来，HDFS 已经成为大数据生态的存储标准，但是我们也可以看到 HDFS 虽然不断优化，但是 JVM 的瓶颈也始终无法突破。

# 云原生大数据计算服务 MaxCompute # 块存储 # 对象存储 # 开源大数据平台 E-MapReduce # 存储 # 缓存 # 分布式计算 # 大数据 # 对象存储

司麟嘟嘟嘟

|

博文

|

来自：大数据与机器学习

如何在Spark中实现Count Distinct重聚合

背景 Count Distinct是SQL查询中经常使用的聚合统计方式，用于计算非重复结果的数目。由于需要去除重复结果，Count Distinct的计算通常非常耗时。为了支持更快速的非重复结果统计Spark还基于Hyperloglog实现了Approximate Count Distinct，用于统计非重复结果的近似值，支持。

# 开源大数据平台 E-MapReduce # SQL # 存储 # 分布式计算 # Spark

云无谓

|

博文

|

来自：大数据与机器学习

使用 Jupyter Notebook 运行 Delta Lake 入门教程

本文通过 jupyter notebook 工具演示了 Delta Lake 的官方教程

# 开源大数据平台 E-MapReduce # SQL # 分布式计算 # Linux # Shell # 流计算 # Spark # iOS开发 # MacOS # Windows

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

开源大数据平台 E-MapReduce