备案控制台

开源大数据平台 E-MapReduce

# 开源大数据平台 E-MapReduce #

0 关注

1808内容

相关子社区

166内容 1活动 383关注

最新热门文章问答视频电子书训练营活动

寒沙牧

|

博文

|

来自：大数据与机器学习

SparkSQL自适应执行

阿里云EMR-3.13.0版本的SparkSQL支持自适应执行功能，用来解决Reduce个数的动态调整/数据倾斜/执行计划的动态优化问题。

# 开源大数据平台 E-MapReduce # SQL # 调度 # 分布式计算 # Spark

云无谓

|

博文

|

来自：大数据与机器学习

[译]利用贝叶斯推理做硬件故障率的准实时预测

你可能已经不知不觉中在数据科学项中用上了贝叶斯相关技术！如果你还没用上，这个技术可以增强你的数据分析能力。本文会展示这项技术在现实世界中的应用案例：通过传感器收集的流式数据预测硬件故障率。

# 开源大数据平台 E-MapReduce # 分布式计算 # 流计算 # Spark # Python

阿里云E-MapReduce团队

|

博文

|

来自：大数据与机器学习

阿里云大数据+AI技术沙龙上海站回顾 | 揭秘TPC-DS 榜单第一名背后的强大引擎

11月16日的大数据+AI沙龙上海站取得圆满成功！ EMR 团队在国内运营最大的 Spark 社区，为了更好地传播和分享业界最新技术和最佳实践，现在联合开源社区同行，打造一个纯粹的技术交流线下沙龙《大数据 + AI》，定期为大家做公益分享。本次分享，揭秘TPC-DS 榜单第一名背后的强大引擎，探索Pyboot如何打通大数据生态，一同学习业内最新的存储方案和机器学习平台。

# 云原生大数据计算服务 MaxCompute # 开源大数据平台 E-MapReduce # 分布式计算 # 大数据 # Spark # Apache # Hadoop # 人工智能 # 存储 # 机器学习/深度学习 # SQL # 弹性计算

开源大数据EMR

|

博文

|

来自：大数据与机器学习

开源大数据周刊-第16期

spark2.0已经发布，本期整理了一些spark的好文（包括最佳实践、原理等）推荐给大家。

# 云原生大数据计算服务 MaxCompute # 开源大数据平台 E-MapReduce # 分布式计算 # NoSQL # 大数据 # Spark # 流计算

寒沙牧

|

博文

|

来自：大数据与机器学习

HiveServer2集成LDAP做用户认证

HiveServer2支持多种认证方式，通过`hive.server2.authentication`参数来设置，包括`nosasl, none, ldap, kerberos, pam, custom` 本文介绍如何在E-MapReduce中使用LDAP配置HiveServer的认证。

# 开源大数据平台 E-MapReduce # Java # 数据库连接

开源大数据EMR

|

博文

|

来自：大数据与机器学习

开源大数据周刊-第19期

本周关注：马云谈云计算、大数据、人工智能未来三十年，E-MapReduce存储计算分离，真实的大数据故事，spark session及spark mmlib、presto+oss

# 云原生大数据计算服务 MaxCompute # 开源大数据平台 E-MapReduce # SQL # 分布式计算 # 算法 # 大数据 # Spark

开源大数据EMR

|

博文

|

来自：大数据与机器学习

Apache Spark3.0什么样？一文读懂Apache Spark最新技术发展与展望

阿里巴巴高级技术专家李呈祥带来了《Apache Spark 最新技术发展和3.0+ 展望》的全面解析，为大家介绍了Spark在整体IT基础设施上云背景下的新挑战和最新技术进展，同时预测了Spark 3.0即将重磅发布的新功能。

# 开源大数据平台 E-MapReduce # 容器服务Kubernetes版 # GPU云服务器 # 云原生大数据计算服务 MaxCompute # 对象存储 # 机器学习/深度学习 # 存储 # 分布式计算 # Apache # Spark

阿里云E-MapReduce团队

|

博文

|

来自：大数据与机器学习

Spark Operator浅析

Spark Operator浅析本文介绍Spark Operator的设计和实现相关的内容. Spark运行时架构经过近几年的高速发展,分布式计算框架的架构逐渐趋同. 资源管理模块作为其中最通用的模块逐渐与框架解耦,独立成通用的组件.

# 开源大数据平台 E-MapReduce # 容器服务Kubernetes版 # 资源管理 # 可观测监控 Prometheus 版 # 分布式计算 # Spark # 容器 # Kubernetes # Perl

黯灭_邓彬

|

博文

|

来自：大数据与机器学习

Spark DataFrame 的 groupBy vs groupByKey

# 开源大数据平台 E-MapReduce # SQL # 分布式计算 # Spark # C++

阿里云E-MapReduce团队

|

博文

|

来自：大数据与机器学习

Structured Streaming VS Flink

Flink是标准的实时处理引擎，而且Spark的两个模块Spark Streaming和Structured Streaming都是基于微批处理的，不过现在Spark Streaming已经非常稳定基本都没有更新了，然后重点移到spark sql和structured Streaming了。

# 实时计算 Flink版 # 开源大数据平台 E-MapReduce # SQL # 分布式计算 # 监控 # 流计算 # Spark

1

2

3

4

...

20

免费试用