开源大数据平台 E-MapReduce的搜索结果

封神

|

博文

|

在大数据时代，要想个性化实现业务的需求，还是得操纵各类的大数据软件，如：hadoop、hive、spark等。笔者（阿里封神）混迹Hadoop圈子多年，经历了云梯1、ODPS等项目，目前base在E-Mapreduce。在这，笔者尽可能梳理下hadoop的学习之路。

# 开源大数据平台 E-MapReduce # 云数据库HBase版 # 云原生大数据计算服务 MaxCompute # 分布式计算 # Hadoop # 分布式数据库 # Spark # Hbase

尼不要逗了

|

博文

|

来自：大数据与机器学习

分布式快照算法: Chandy-Lamport

Spark 的 Structured Streaming 的 Continuous Processing Mode 的容错处理使用了分布式快照（Distributed Snapshot）算法 Chandy-Lamport 算法，那么分布式快照算法可以用来解决什么问题呢？

# 开源大数据平台 E-MapReduce # 分布式计算 # 算法 # 大数据 # 流计算 # Spark

开源大数据EMR

|

博文

|

来自：大数据与机器学习

基于Alluxio系统的Spark DataFrame高效存储管理技术

介绍越来越多的公司和组织开始将Alluxio和Spark一起部署从而简化数据管理，提升数据访问性能。Qunar最近将Alluxio部署在他们的生产环境中，从而将Spark streaming作业的平均性能提升了15倍，峰值甚至达到300倍左右。

# 开源大数据平台 E-MapReduce # 存储 # 缓存 # 分布式计算 # 固态存储 # Spark

梅熙

|

博文

|

来自：大数据与机器学习

如何在Aliyun E-MapReduce集群上使用Zeppelin和Hue

目前Aliyun E-MapReduce支持了zeppelin和hue，在Aliyun E-MapReduce集群上可以很方便的使用zeppelin和hue。本文将详细介绍如何在Aliyun E-MapReduce玩转Zeppelin和Hue！

# 开源大数据平台 E-MapReduce # 对象存储 # SQL # 分布式计算 # 网络安全 # HIVE # Hadoop

计算爱好者

|

博文

|

来自：大数据与机器学习

HIVE MapJoin异常问题处理总结

HIVE被很广泛的使用，使用过程中也会遇到各种千奇百怪的问题。这里就遇到的MapJoin Local 内存不足的问题进行讨论，从问题描述、mapjion原理以及产生该问题的原因，解决方案做一下介绍，最后对该问题进行了进一步的思考，希望对解决该类问题的朋友有所帮助。

# 开源大数据平台 E-MapReduce # SQL # 分布式计算 # 大数据 # Java # HIVE

阿里云E-MapReduce团队

|

博文

|

来自：大数据与机器学习

漫谈分布式计算框架

本文主要谈了一些分布式计算框架方面的心得。

# 开源大数据平台 E-MapReduce # 分布式计算 # 并行计算 # TensorFlow # 算法框架/工具 # Spark

开源大数据EMR

|

博文

|

来自：大数据与机器学习

在 Apache Spark 中利用 HyperLogLog 函数实现高级分析

预聚合是高性能分析中的常用技术，通过预先聚合降低纬度，从而在查询时大幅减少计算量，提升响应速度。本文介绍了 spark-alchemy 这个开源库中的 HyperLogLog 这一个高级功能，并且探讨它是如何解决大数据中数据聚合的问题。

# 开源大数据平台 E-MapReduce # 云原生大数据计算服务 MaxCompute # 分布式计算 # Spark # 大数据 # 算法 # Apache

eric-li

|

博文

|

来自：大数据与机器学习

使用Hive进行OSS数据处理的一个最佳实践

# 对象存储 # 开源大数据平台 E-MapReduce # SQL # 大数据 # 数据处理 # 对象存储 # HIVE

开源大数据EMR

|

博文

|

来自：大数据与机器学习

开源生态的新发展：Apache Spark 3.0、Koala和Delta Lake

Hadoop开源生态Spark已经发展三年有余，今年迎来了Spark 3.0。在2019杭州云栖大会大数据&AI峰会上，Databricks研发总监李潇为大家分享了Spark 3.0版本的新特性，以及其在数据工程以及数据科学方面带来的新技术。

# 开源大数据平台 E-MapReduce # 云原生大数据计算服务 MaxCompute # 分布式计算 # Spark # Python # 大数据 # API # Apache # SQL # 数据处理 # 开发者 # Hadoop

鸿初

|

博文

|

来自：大数据与机器学习

hive在E-MapReduce集群的实践（二）集群hive参数优化

本文介绍一些常见的集群跑hive作业参数优化，可以根据业务需要来使用。提高hdfs性能修改hdfs-site，注意重启hdfs服务 dfs.client.read.shortcircuit=true //直读 dfs.

# 开源大数据平台 E-MapReduce # SQL # 大数据 # HIVE

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

开源大数据平台 E-MapReduce