备案控制台

开源大数据平台 E-MapReduce

# 开源大数据平台 E-MapReduce #

0 关注

1808内容

相关子社区

166内容 1活动 384关注

最新热门文章问答视频电子书训练营活动

阿里云大数据

|

10月前

|

博文

|

来自：大数据与机器学习

阿里云 EMR Serverless Spark 在微财机器学习场景下的应用

面对机器学习场景下的训练瓶颈，微财选择基于阿里云 EMR Serverless Spark 建立数据平台。通过 EMR Serverless Spark，微财突破了单机训练使用的数据规模瓶颈，大幅提升了训练效率，解决了存算分离架构下 Shuffle 稳定性和性能困扰，为智能风控等业务提供了强有力的技术支撑。

# 函数计算 # 云原生大数据计算服务 MaxCompute # 开源大数据平台 E-MapReduce # 机器学习/深度学习 # 分布式计算 # 大数据 # Serverless # Spark

阿里云大数据

|

1月前

|

博文

|

来自：大数据与机器学习

EMR AI助手开启公测：用AI重塑大数据运维，更简单、更智能

EMR AI 助手开启公测，通过合理利用 EMR AI 助手的各项功能，可以快速查询资源信息、唤起相关操作、诊断组件异常、获取技术支持等，能帮您提升运维效率和操作体验。

# 开源大数据平台 E-MapReduce # 人工智能 # 弹性计算 # 运维 # 自然语言处理 # 大数据

寒沙牧

|

博文

|

来自：大数据与机器学习

云上基于Kerberos的大数据安全实践

# 数据安全中心 # 云原生大数据计算服务 MaxCompute # 密钥管理服务 # 云数据库HBase版 # IoT设备身份认证 # 开源大数据平台 E-MapReduce # 资源调度 # 安全 # 大数据 # 数据安全/隐私保护 # Web App开发

寒沙牧

|

博文

|

来自：大数据与机器学习

YARN中的CPU资源隔离-CGroups

YARN中集成了CGroups的功能，使得NodeManger可以对container的CPU的资源使用进行控制，比如可以对单个container的CPU使用进行控制，也可以对NodeManger管理的总CPU进行控制。

# 开源大数据平台 E-MapReduce # 资源调度 # 测试技术 # Apache # 数据中心 # 容器

寒沙牧

|

博文

|

来自：大数据与机器学习

YARN ResourceManager重启作业保留机制

YARN可以通过相关配置支持ResourceManager重启过程中，不影响正在运行的作业，即重启后，作业还能正常继续运行直到结束

# 开源大数据平台 E-MapReduce # SQL # 资源调度 # 测试技术 # Apache # HIVE

鸿初

|

博文

|

来自：大数据与机器学习

hive在E-MapReduce集群的实践（一）hive异常排查入门

hive是hadoop集群最常用的数据分析工具，只要运行sql就可以分析海量数据。初学者在使用hive时，经常会遇到各种问题，不知道该怎么解决。本文是hive实践系列的第一篇，以E-MapReduce集群环境为例，介绍常见的hive执行异常，定位和解决方法，以及hive日志查看方法。

# 开源大数据平台 E-MapReduce # 域名与网站 # 日志服务 # SQL # 分布式计算 # 监控 # 大数据 # HIVE

寒沙牧

|

博文

|

来自：大数据与机器学习

SparkSQL自适应执行

阿里云EMR-3.13.0版本的SparkSQL支持自适应执行功能，用来解决Reduce个数的动态调整/数据倾斜/执行计划的动态优化问题。

# 开源大数据平台 E-MapReduce # SQL # 调度 # 分布式计算 # Spark

阿里云E-MapReduce团队

|

博文

|

来自：大数据与机器学习

Adaptive Execution如何让Spark SQL更高效更好用？

本文转发自技术世界，原文链接　http://www.jasongj.com/spark/adaptive_execution/ 1 背景 Spark SQL / Catalyst 和 CBO 的优化，从查询本身与目标数据的特点的角度尽可能保证了最终生成的执行计划的高效性。

# 开源大数据平台 E-MapReduce # SQL # 分布式计算 # Spark

xy_xin

|

博文

|

来自：大数据与机器学习

漫谈分布式计算框架

本文主要谈了一些分布式计算框架方面的心得。

# 开源大数据平台 E-MapReduce # 分布式计算 # 并行计算 # TensorFlow # 算法框架/工具 # Spark

鱼跟猫

|

博文

|

来自：大数据与机器学习

使用Spark SQL进行流式机器学习计算（上）

今天来和大家简单说一下如何使用Spark SQL进行流式数据的机器学习处理

# 开源大数据平台 E-MapReduce # 云数据库 RDS MySQL 版 # 机器学习/深度学习 # SQL # 分布式计算 # 算法 # Spark

1

...

13

14

15

...

20

免费试用