开源大数据平台 E-MapReduce-最新-第31页-阿里云开发者社区-阿里云

开发者社区> 大数据与机器学习> 开源大数据平台 E-MapReduce

阿里云EMR是云原生开源大数据平台，为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎，计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。

今日

1647

内容

活动

5430

关注

来自：大数据与机器学习

活动

开源大数据EMR

存储 SQL 大数据

博文

为什么要写技术文章-我对写作收获的理解

为了迎接更好的自己。过去的止步不前程序员最反感别人没写文档，最不喜欢自己写文档。我一直很认同技术人员应该持续写技术文章，可以总结经验，打造个人品牌，等等。但加上公司内部分享，实际也没写多少篇，这可能也是很多技术人员的通病吧。

3056 0 2

开源大数据EMR

存储大数据分布式数据库

博文

开源大数据周刊-第85期

资讯美国公布长达35页的《2016-2045年新兴科技趋势报告》， Hadoop社区最新动态

2587 0 0

鸿初

SQL 分布式计算监控

博文

hive在E-MapReduce集群的实践（一）hive异常排查入门

hive是hadoop集群最常用的数据分析工具，只要运行sql就可以分析海量数据。初学者在使用hive时，经常会遇到各种问题，不知道该怎么解决。本文是hive实践系列的第一篇，以E-MapReduce集群环境为例，介绍常见的hive执行异常，定位和解决方法，以及hive日志查看方法。

7813 0 0

开源大数据EMR

机器学习/深度学习人工智能大数据

博文

开源大数据周刊-第82期

总理政府工作报告：加强大数据发展和新一代人工智能研发应用。即将发布的 JDK 10 有 109 项新特性，你喜欢哪些？微软宣布在机器翻译方面取得突破，中翻英可达人类水平。推特爆款：谷歌大脑工程师的深度强化学习劝退文。

2469 0 0

知瑕

SQL 网络协议 Java

博文

通过Gateway访问Presto

本文介绍使用HAProxy反向代理实现通过Gateway节点访问Presto服务的方法。该方法也很容扩展到其他组件，如Impala等。

3184 0 0

鸿初

资源调度大数据调度

博文

Step by step，学习EMR集群的fair类型资源池

2241 0 1

鸿初

SQL 大数据 HIVE

博文

hive在E-MapReduce集群的实践（二）集群hive参数优化

本文介绍一些常见的集群跑hive作业参数优化，可以根据业务需要来使用。提高hdfs性能修改hdfs-site，注意重启hdfs服务 dfs.client.read.shortcircuit=true //直读 dfs.

8223 0 0

寒沙牧

SQL 资源调度测试技术

博文

YARN ResourceManager重启作业保留机制

YARN可以通过相关配置支持ResourceManager重启过程中，不影响正在运行的作业，即重启后，作业还能正常继续运行直到结束

8181 0 0

鱼跟猫

消息中间件大数据测试技术

博文

E-MapReduce Kafka Benchmark - I

本文介绍如何利用Kafka自带的性能测试脚本测试Kafka集群的性能，文末给出一份单机测试Kafka集群的性能数据。此数据仅供参考，不代表官方性能指标承诺。

3302 0 0

寒沙牧

消息中间件安全 Kafka

博文

E-MapReduce Kafka Kerberos集群授权

4128 0 0

鱼跟猫

消息中间件大数据测试技术

博文

如何在E-MapReduce上提交Storm作业处理Kafka数据

本文演示如何在E-MapReduce上部署Storm集群和Kafka集群，并运行Storm作业消费Kafka数据。

3060 0 1

开源大数据EMR

机器学习/深度学习人工智能大数据

博文

YARN中的CPU资源隔离-CGroups

YARN中集成了CGroups的功能，使得NodeManger可以对container的CPU的资源使用进行控制，比如可以对单个container的CPU使用进行控制，也可以对NodeManger管理的总CPU进行控制。

10799 1 2

开源大数据EMR

机器学习/深度学习 SQL 人工智能

博文

开源大数据周刊-第80期

奇虎360正式开源其高性能KV存储平台Zeppelin，Zeppelin 是奇虎 360 开源的一个高性能，高可用的分布式 Key-Value 存储平台，它以高性能、大集群为目标，并希望能在 Zeppelin 的基础上，不仅能够提供 KV 的访问，还可以通过简单的一层转换满足更复杂的协议需求。

3515 0 0

云无谓

Web App开发 SQL 大数据

博文

阿里云AnalyticDB数据导出到E-MapReduce实践

阿里云的分析型数据库（AnalyticDB）和E-MapReduce（简称EMR）在大数据场景下非常有用，本文将介绍如何尝试打通两个产品，将通过EMR中自带的开源工具Sqoop来完成这个任务。

4602 0 0

开源大数据EMR

机器学习/深度学习人工智能安全

博文

开源大数据周刊-第79期

资讯警惕大数据成了互联网的“PX项目” 新年伊始 BAT 三家关于数据安全的新闻就成功的吸引了公众的目光，也引发了公众对于大公司收集并使用用户数据的担忧。这篇文章比较客观的分析了公众的忧虑，以及互联网公司如何使用这些数据，可以说是一个很好数据安全的科普。

2369 0 0

鸿初

SQL 分布式计算关系型数据库

博文

自建hadoop集群迁移到EMR之数据迁移篇

自建集群要迁移到EMR集群，往往需要迁移已有数据。本文主要介绍hdfs数据和hive meta数据如何迁移。前置已按需求创建好EMR集群。迁移hdfs数据主要依靠distcp,核心是打通网络，确定hdfs参数和要迁移内容，测速，迁移。

4110 0 0

寒沙牧

Java 分布式数据库 Apache

博文

开源大数据周刊-第78期

新功能预告：EMR Hadoop集群将增加Flink组件，版本1.4.0；EMR Kafka集群将增加Schema Registry和Rest Proxy组件

3461 0 0

开源大数据EMR

人工智能算法安全

博文

开源大数据周刊-第77期

资讯锤炼视频大数据时代的“火眼金睛” 我们身处一个大数据的时代，视频数据的爆炸性增长是这个时代的重要特征之一。如何让计算机看懂视频的内容，实现对海量视频数据的检索和分析是有效管理和利用视频大数据的关键。

3036 0 0

寒沙牧

分布式计算大数据 Hadoop

博文

HAS (Hadoop Authentication Service), 致力于解决开源大数据服务和生态系统的认证支持。目前开源大数据（Hadoop/Spark）在安全认证上只内置支持了Kerberos方式，HAS提出了一种新的认证方式, 通过与现有的认证和授权体系进行对接，使得在Hadoop/Spark在上面支持Kerberos以外的认证方式变成可能，并对最终用户简化和隐藏Kerberos的复杂性。

9096 0 2

寒沙牧

资源调度安全大数据

博文

云上基于Kerberos的大数据安全实践

4376 0 0

开源大数据EMR

分布式计算安全大数据

博文

开源大数据周刊-第76期

本期周刊包括开源大数据核心组件Hadoop和Impala的最新消息，以及HBase、Kafka、TensorFlow等主流开源组件的实践分享和技术实现，还有来自京东推荐部门的推荐系统演进史，纯干货分享。

3605 0 0

寒沙牧

安全大数据分布式数据库

博文

E-MapReduce大数据安全实践

E-MapReduce从EMR-2.7.x/EMR-3.5.x版本开始支持创建安全类型的集群，即集群中的开源组件以Kerberos的安全模式启动,在这种安全环境下只有经过认证的客户端(Client)才能访问集群的服务(Service,如HDFS)。

6700 0 0

开源大数据EMR

机器学习/深度学习消息中间件人工智能

博文

开源大数据周刊-第73期

资讯国家公布人工智能四大平台 AI的春天到了？日前，科技部召开新一代人工智能发展规划暨重大科技项目启动会，并公布首批国家新一代人工智能开放创新平台名单，标志着新一代人工智能发展规划和重大科技项目进入全面启动实施阶段。

3953 0 0

开源大数据EMR

大数据 TensorFlow Apache

博文

开源大数据周刊-第71期

2695 0 0

鱼跟猫

分布式计算大数据 Hadoop

博文

E-MapReduce上如何升级EMR-Core

本文档将介绍如何将老集群的EMR-Core升级到最新版本什么是EMR-Core EMR-Core是E-MapReduce集群上支持Hadoop生态组件读写OSS的依赖包。它提供一种高效地读写OSS数据的实现，并不断地在优化中。

2783 0 0

鸿初

Web App开发大数据

博文

用集群脚本功能安装大象医生优化你的大数据作业

3047 0 0

开源大数据EMR

机器学习/深度学习分布式计算大数据

博文

开源大数据周刊-第70期

资讯：推动云基础设施创新，英特尔与阿里云的“软硬合唱” 对于一家云服务厂商来说，实现软件、服务与硬件基础设施的完美整合，是在激烈市场竞争中的关键点。

2349 0 0

开源大数据EMR

消息中间件机器学习/深度学习大数据

博文

开源大数据周刊-第69期

资讯：阿里巴巴成立达摩院，三年1000亿旨在创造颠覆性基础技术 10 月 11 日，2017 杭州·云栖大会开幕。会上，阿里巴巴集团首席技术官张建锋宣布阿里巴巴成立全球研究院达摩院，进行基础科学和颠覆式技术创新研究，并将在未来 3 年投入 1000 亿元进行基础科学研发。

2264 0 0

开源大数据EMR

分布式计算大数据 TensorFlow

博文

开源大数据周刊-第68期

资讯： 2020年我国大数据产业将破万亿近日，《2017中国大数据产业发展白皮书》发布。《每日经济新闻》记者对照工信部及各地出台的大数据发展规划进行梳理后发现，到2020年，我国大数据相关产品和服务业务收入将突破1万亿元，年均复合增长率保持30%左右。

2520 0 0

开源大数据EMR

消息中间件人工智能分布式计算

博文

开源大数据周刊-第67期

3440 0 0

开源大数据EMR

存储消息中间件大数据

博文

开源大数据周刊-第66期

6863 0 0

云无谓

分布式计算 Hadoop 大数据

博文

E-MapReduce HDFS文件快速CRC校验工具介绍

在大数据应用场景下经常有数据文件的迁移工作，如果保障迁移之后数据的完整性是一个很常见的问题。本文就给大家介绍一下在大数据场景下，如何用工具快速对比文件。

5559 0 1

开源大数据EMR

机器学习/深度学习人工智能分布式计算

博文

开源大数据周刊-第62期

2705 0 0

云无谓

分布式计算 Spark

博文

在E-MapReduce集群内运行Spark GraphX作业

Spark GraphX是一个比较流行的图计算框架，如果你使用了阿里云的E-MapReduce服务，可以很方便的运行图计算的作业。下面以PageRank为例，看看如何运行GraphX作业

3048 0 0

开源大数据EMR

SQL 分布式计算大数据

博文

开源大数据周刊-第61期

7671 0 0

开源大数据EMR

机器学习/深度学习分布式计算大数据

博文

开源大数据周刊-第58期

阿里云E-Mapreduce动态: EMR即将在新的版本中支持本地盘机型，大幅降低集群的存储成本。资讯借助亚马逊AWS Sno大数据如何改变垂直电商? 垂直电商仍旧将是平台电商们在未来极其有力的竞争者和合作者。

2478 0 0

寒沙牧

网络协议 Linux 分布式数据库

博文

TCP的backlog导致的HBase超时问题排查

TCP的backlog导致的超时问题排查

3370 0 0

开源大数据EMR

机器学习/深度学习分布式计算大数据

博文

开源大数据周刊-第57期

ECM功能上线北京region，用户可以通过EMR-3.2.0版本创建新集群体验，ECM提供组件的配置修改/起停等操作

2423 0 0

寒沙牧

SQL 分布式计算 Hadoop

博文

搭建Gateway向E-MapReduce集群提交作业

2684 0 0

开源大数据EMR

分布式计算大数据 Hadoop

博文

开源大数据周刊-第56期

阿里云E-Mapreduce实践: 使用hadoop restful api实现对集群信息的统计资讯全球因Hadoop服务器配置不当导致的数据泄露或达5120TB 网络犯罪分子近期开始针对配置不当的 Hadoop Clusters 与 CouchDB 服务器展开攻击活动。

2774 0 0

梅熙

分布式计算 Hadoop API

博文

使用hadoop restful api实现对集群信息的统计

本文根据hadoop/spark的RESTful API，实现了对集群基本信息的统计功能，包括HDFS文件系统、job情况、资源队列情况的统计。这些API只提供了基础的数据，具体的统计与分析，还需要基于这些基础数据做一些简单的开发。

5363 0 1

开源大数据EMR

人工智能分布式计算大数据

博文

开源大数据周刊-第55期

云HBase新增支持深圳、上海区域、支持超过2个节点及高配节点。

3731 0 0

开源大数据EMR

机器学习/深度学习 Web App开发安全

博文

开源大数据周刊-第54期

5003 0 0

梅熙

分布式计算大数据 Hadoop

博文

EMR集群上capacity scheduler的ACL实现

本文接着yarn capacity scheduler的实现原理，介绍了capacity scheduler的设置和其中需要注意的问题，并结合EMR集群做了实际操作实验。

6052 0 0

开源大数据EMR

机器学习/深度学习人工智能算法

博文

开源大数据周刊-第52期

利用yarn capacity scheduler在EMR集群上实现大集群的多租户的集群资源隔离和quota限制本文结合EMR集群，讲述了如何利用yarn capacity scheduler在EMR集群上实现大集群的多租户的集群资源quota限制与管控。

3267 0 0

梅熙

分布式计算资源调度大数据

博文

利用yarn capacity scheduler在EMR集群上实现大集群的多租户的集群资源隔离和quota限制

本文结合EMR集群，讲述了如何利用yarn capacity scheduler在EMR集群上实现大集群的多租户的集群资源quota限制与管控。

7423 0 0

寒沙牧

分布式计算 Hadoop 数据安全/隐私保护

博文

E-MapReduce集群中HDFS服务集成Kerberos

本文介绍在E-MapReduce集群中HDFS服务集成Kerberos。

6943 0 0

...

你好！

登录掌握更多精彩内容

账号登录

我的内容

我的收藏

EMR 官网

EMR Serverless StarRocks 版

EMR Serverless Spark 版

更多版块

大数据计算 MaxCompute 实时数仓 Hologres 实时计算 Flink 大数据开发治理DataWorks 检索分析服务 Elasticsearch版人工智能平台PAI 智能搜索推荐大数据运维SREWorks 数据可视化DataV 向量检索服务 Milvus 版

展开全部

活跃用户

Jayf

开源大数据平台 E-MapReduce

最新

博文

用户案例

免费试用

问答

视频

电子书

学习

活动

开源大数据周刊-第84期

为什么要写技术文章-我对写作收获的理解

开源大数据周刊-第85期

hive在E-MapReduce集群的实践（一）hive异常排查入门

开源大数据周刊-第82期

通过Gateway访问Presto

Step by step，学习EMR集群的fair类型资源池

hive在E-MapReduce集群的实践（二）集群hive参数优化

YARN ResourceManager重启作业保留机制

E-MapReduce Kafka Benchmark - I

E-MapReduce Kafka Kerberos集群授权

如何在E-MapReduce上提交Storm作业处理Kafka数据

开源大数据周刊-第81期

YARN中的CPU资源隔离-CGroups

开源大数据周刊-第80期

阿里云AnalyticDB数据导出到E-MapReduce实践

开源大数据周刊-第79期

自建hadoop集群迁移到EMR之数据迁移篇

HBase ThriftServer Kerberos认证

开源大数据周刊-第78期

开源大数据周刊-第77期

HAS-插件式Kerberos认证框架

云上基于Kerberos的大数据安全实践

开源大数据周刊-第76期

E-MapReduce大数据安全实践

开源大数据周刊-第73期

开源大数据周刊-第71期

E-MapReduce上如何升级EMR-Core

用集群脚本功能安装大象医生优化你的大数据作业

开源大数据周刊-第70期

开源大数据周刊-第69期

开源大数据周刊-第68期

开源大数据周刊-第67期

开源大数据周刊-第66期

E-MapReduce HDFS文件快速CRC校验工具介绍

开源大数据周刊-第62期

在E-MapReduce集群内运行Spark GraphX作业

开源大数据周刊-第61期

开源大数据周刊-第58期

TCP的backlog导致的HBase超时问题排查

开源大数据周刊-第57期

搭建Gateway向E-MapReduce集群提交作业

开源大数据周刊-第56期

使用hadoop restful api实现对集群信息的统计

开源大数据周刊-第55期

开源大数据周刊-第54期

EMR集群上capacity scheduler的ACL实现

开源大数据周刊-第52期

利用yarn capacity scheduler在EMR集群上实现大集群的多租户的集群资源隔离和quota限制

E-MapReduce集群中HDFS服务集成Kerberos

活跃用户

相关产品