备案控制台

开源大数据平台 E-MapReduce

# 开源大数据平台 E-MapReduce #

0 关注

1808内容

相关子社区

166内容 1活动 383关注

最新热门文章问答视频电子书训练营活动

封神

|

博文

|

来自：大数据与机器学习

阿里封神谈hadoop生态学习之路

在大数据时代，要想个性化实现业务的需求，还是得操纵各类的大数据软件，如：hadoop、hive、spark等。笔者（阿里封神）混迹Hadoop圈子多年，经历了云梯1、ODPS等项目，目前base在E-Mapreduce。在这，笔者尽可能梳理下hadoop的学习之路。

# 开源大数据平台 E-MapReduce # 云数据库HBase版 # 云原生大数据计算服务 MaxCompute # 分布式计算 # Hadoop # 分布式数据库 # Spark # Hbase

开源大数据EMR

|

博文

|

来自：大数据与机器学习

JindoFS: 云上大数据的高性能数据湖存储方案

JindoFS 是EMR打造的高性能大数据存储服务，可以为不同的计算引擎提供不同的存储服务，可以根据应用的场景来选择不同的存储模式。在2019杭州云栖大会大数据生态专场，阿里巴巴计算平台事业部EMR团队技术专家殳鑫鑫和Intel大数据团队软件开发经理徐铖共同向大家分享了云上大数据的高性能数据湖存储方案JindoFS的产生背景、架构以及与Intel DCPM的性能评测。

# 云原生大数据计算服务 MaxCompute # 对象存储 # 性能测试 # 开源大数据平台 E-MapReduce # 对象存储 # 存储 # 分布式计算 # Spark # 测试技术 # 大数据

开源大数据EMR

|

博文

|

来自：大数据与机器学习

基于Alluxio系统的Spark DataFrame高效存储管理技术

介绍越来越多的公司和组织开始将Alluxio和Spark一起部署从而简化数据管理，提升数据访问性能。Qunar最近将Alluxio部署在他们的生产环境中，从而将Spark streaming作业的平均性能提升了15倍，峰值甚至达到300倍左右。

# 开源大数据平台 E-MapReduce # 存储 # 缓存 # 分布式计算 # 固态存储 # Spark

梅熙

|

博文

|

来自：大数据与机器学习

如何在Aliyun E-MapReduce集群上使用Zeppelin和Hue

目前Aliyun E-MapReduce支持了zeppelin和hue，在Aliyun E-MapReduce集群上可以很方便的使用zeppelin和hue。本文将详细介绍如何在Aliyun E-MapReduce玩转Zeppelin和Hue！

# 开源大数据平台 E-MapReduce # 对象存储 # SQL # 分布式计算 # 网络安全 # HIVE # Hadoop

计算爱好者

|

博文

|

来自：大数据与机器学习

HIVE MapJoin异常问题处理总结

HIVE被很广泛的使用，使用过程中也会遇到各种千奇百怪的问题。这里就遇到的MapJoin Local 内存不足的问题进行讨论，从问题描述、mapjion原理以及产生该问题的原因，解决方案做一下介绍，最后对该问题进行了进一步的思考，希望对解决该类问题的朋友有所帮助。

# 开源大数据平台 E-MapReduce # SQL # 分布式计算 # 大数据 # Java # HIVE

阿里云E-MapReduce团队

|

博文

|

来自：大数据与机器学习

漫谈分布式计算框架

本文主要谈了一些分布式计算框架方面的心得。

# 开源大数据平台 E-MapReduce # 分布式计算 # 并行计算 # TensorFlow # 算法框架/工具 # Spark

封神

|

博文

|

来自：大数据与机器学习

5W1H(六何分析法)全景洞察大数据

我们从大数据的特征说起，谈到了大数据的价值，再聊什么时候做，谁去做，选择什么平台，最后聊到了怎么做的问题。通过对一些真实的场景分析，了解了大数据的全貌。

# 云原生大数据计算服务 MaxCompute # 对象存储 # 云数据库 RDS MySQL 版 # 云数据库HBase版 # 客服工作台 # 开源大数据平台 E-MapReduce # 存储 # 分布式计算 # 大数据 # 数据挖掘 # Hadoop

开源大数据EMR

|

博文

|

来自：大数据与机器学习

基于Spark Streaming 进行 MySQL Binlog 日志准实时传输

基本架构 RDS -> SLS -> Spark Streaming -> Spark HDFS 上述链路主要包含3个过程：如何把 RDS 的 binlog 收集到 SLS。如何通过 Spark Streaming 将 SLS 中的日志读取出来，进行分析。

# 云数据库 RDS MySQL 版 # 日志服务 # 开源大数据平台 E-MapReduce # 对象存储 # 分布式计算 # 监控 # 关系型数据库 # Apache # Spark

开源大数据EMR

|

博文

|

来自：大数据与机器学习

在 Apache Spark 中利用 HyperLogLog 函数实现高级分析

预聚合是高性能分析中的常用技术，通过预先聚合降低纬度，从而在查询时大幅减少计算量，提升响应速度。本文介绍了 spark-alchemy 这个开源库中的 HyperLogLog 这一个高级功能，并且探讨它是如何解决大数据中数据聚合的问题。

# 开源大数据平台 E-MapReduce # 云原生大数据计算服务 MaxCompute # 分布式计算 # Spark # 大数据 # 算法 # Apache

开源大数据EMR

|

博文

|

来自：大数据与机器学习

从数砖开源 Delta Lake 说起

Spark AI 北美峰会的第一天，坊间传闻被证实，Databrics（俗称数砖，亦称砖厂）的杀手锏 Delta 产品特性作为 Delta Lake 项目开源！会前，笔者有幸同砖厂的两位大佬李潇和连城做了个线下交流，谈到 Delta 时被告知会有相关重磅在大会上宣布，但却没想到是开源出去。

# 开源大数据平台 E-MapReduce # 云原生大数据计算服务 MaxCompute # 存储 # 分布式计算 # 大数据 # Apache # Spark

1

2

3

4

...

20

免费试用