开源大数据平台 E-MapReduce-最新-第31页-阿里云开发者社区-阿里云

开发者社区> 大数据与机器学习> 开源大数据平台 E-MapReduce

阿里云EMR是云原生开源大数据平台，为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎，计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。

今日

1629

内容

活动

5420

关注

来自：大数据与机器学习

学习

鸿初

SQL 分布式计算关系型数据库

博文

自建hadoop集群迁移到EMR之数据迁移篇

自建集群要迁移到EMR集群，往往需要迁移已有数据。本文主要介绍hdfs数据和hive meta数据如何迁移。前置已按需求创建好EMR集群。迁移hdfs数据主要依靠distcp,核心是打通网络，确定hdfs参数和要迁移内容，测速，迁移。

3948 0 0

寒沙牧

Java 分布式数据库 Apache

博文

开源大数据周刊-第78期

新功能预告：EMR Hadoop集群将增加Flink组件，版本1.4.0；EMR Kafka集群将增加Schema Registry和Rest Proxy组件

3315 0 0

开源大数据EMR

人工智能算法安全

博文

开源大数据周刊-第77期

资讯锤炼视频大数据时代的“火眼金睛” 我们身处一个大数据的时代，视频数据的爆炸性增长是这个时代的重要特征之一。如何让计算机看懂视频的内容，实现对海量视频数据的检索和分析是有效管理和利用视频大数据的关键。

2916 0 0

寒沙牧

分布式计算大数据 Hadoop

博文

HAS (Hadoop Authentication Service), 致力于解决开源大数据服务和生态系统的认证支持。目前开源大数据（Hadoop/Spark）在安全认证上只内置支持了Kerberos方式，HAS提出了一种新的认证方式, 通过与现有的认证和授权体系进行对接，使得在Hadoop/Spark在上面支持Kerberos以外的认证方式变成可能，并对最终用户简化和隐藏Kerberos的复杂性。

8768 0 2

寒沙牧

资源调度安全大数据

博文

云上基于Kerberos的大数据安全实践

4111 0 0

开源大数据EMR

分布式计算安全大数据

博文

开源大数据周刊-第76期

本期周刊包括开源大数据核心组件Hadoop和Impala的最新消息，以及HBase、Kafka、TensorFlow等主流开源组件的实践分享和技术实现，还有来自京东推荐部门的推荐系统演进史，纯干货分享。

3507 0 0

寒沙牧

安全大数据分布式数据库

博文

E-MapReduce大数据安全实践

E-MapReduce从EMR-2.7.x/EMR-3.5.x版本开始支持创建安全类型的集群，即集群中的开源组件以Kerberos的安全模式启动,在这种安全环境下只有经过认证的客户端(Client)才能访问集群的服务(Service,如HDFS)。

6545 0 0

开源大数据EMR

机器学习/深度学习消息中间件人工智能

博文

开源大数据周刊-第73期

资讯国家公布人工智能四大平台 AI的春天到了？日前，科技部召开新一代人工智能发展规划暨重大科技项目启动会，并公布首批国家新一代人工智能开放创新平台名单，标志着新一代人工智能发展规划和重大科技项目进入全面启动实施阶段。

3831 0 0

开源大数据EMR

大数据 TensorFlow Apache

博文

开源大数据周刊-第71期

2595 0 0

鱼跟猫

分布式计算大数据 Hadoop

博文

E-MapReduce上如何升级EMR-Core

本文档将介绍如何将老集群的EMR-Core升级到最新版本什么是EMR-Core EMR-Core是E-MapReduce集群上支持Hadoop生态组件读写OSS的依赖包。它提供一种高效地读写OSS数据的实现，并不断地在优化中。

2644 0 0

鸿初

Web App开发大数据

博文

用集群脚本功能安装大象医生优化你的大数据作业

2780 0 0

开源大数据EMR

机器学习/深度学习分布式计算大数据

博文

开源大数据周刊-第70期

资讯：推动云基础设施创新，英特尔与阿里云的“软硬合唱” 对于一家云服务厂商来说，实现软件、服务与硬件基础设施的完美整合，是在激烈市场竞争中的关键点。

2235 0 0

开源大数据EMR

消息中间件机器学习/深度学习大数据

博文

开源大数据周刊-第69期

资讯：阿里巴巴成立达摩院，三年1000亿旨在创造颠覆性基础技术 10 月 11 日，2017 杭州·云栖大会开幕。会上，阿里巴巴集团首席技术官张建锋宣布阿里巴巴成立全球研究院达摩院，进行基础科学和颠覆式技术创新研究，并将在未来 3 年投入 1000 亿元进行基础科学研发。

2147 0 0

开源大数据EMR

分布式计算大数据 TensorFlow

博文

开源大数据周刊-第68期

资讯： 2020年我国大数据产业将破万亿近日，《2017中国大数据产业发展白皮书》发布。《每日经济新闻》记者对照工信部及各地出台的大数据发展规划进行梳理后发现，到2020年，我国大数据相关产品和服务业务收入将突破1万亿元，年均复合增长率保持30%左右。

2384 0 0

开源大数据EMR

消息中间件人工智能分布式计算

博文

开源大数据周刊-第67期

3291 0 0

开源大数据EMR

存储消息中间件大数据

博文

开源大数据周刊-第66期

6748 0 0

云无谓

分布式计算 Hadoop 大数据

博文

E-MapReduce HDFS文件快速CRC校验工具介绍

在大数据应用场景下经常有数据文件的迁移工作，如果保障迁移之后数据的完整性是一个很常见的问题。本文就给大家介绍一下在大数据场景下，如何用工具快速对比文件。

5243 0 1

开源大数据EMR

机器学习/深度学习人工智能分布式计算

博文

开源大数据周刊-第62期

2592 0 0

云无谓

分布式计算 Spark

博文

在E-MapReduce集群内运行Spark GraphX作业

Spark GraphX是一个比较流行的图计算框架，如果你使用了阿里云的E-MapReduce服务，可以很方便的运行图计算的作业。下面以PageRank为例，看看如何运行GraphX作业

2859 0 0

开源大数据EMR

SQL 分布式计算大数据

博文

开源大数据周刊-第61期

7462 0 0

开源大数据EMR

机器学习/深度学习分布式计算大数据

博文

开源大数据周刊-第58期

阿里云E-Mapreduce动态: EMR即将在新的版本中支持本地盘机型，大幅降低集群的存储成本。资讯借助亚马逊AWS Sno大数据如何改变垂直电商? 垂直电商仍旧将是平台电商们在未来极其有力的竞争者和合作者。

2334 0 0

寒沙牧

网络协议 Linux 分布式数据库

博文

TCP的backlog导致的HBase超时问题排查

TCP的backlog导致的超时问题排查

3090 0 0

开源大数据EMR

机器学习/深度学习分布式计算大数据

博文

开源大数据周刊-第57期

ECM功能上线北京region，用户可以通过EMR-3.2.0版本创建新集群体验，ECM提供组件的配置修改/起停等操作

2317 0 0

寒沙牧

SQL 分布式计算 Hadoop

博文

搭建Gateway向E-MapReduce集群提交作业

2583 0 0

开源大数据EMR

分布式计算大数据 Hadoop

博文

开源大数据周刊-第56期

阿里云E-Mapreduce实践: 使用hadoop restful api实现对集群信息的统计资讯全球因Hadoop服务器配置不当导致的数据泄露或达5120TB 网络犯罪分子近期开始针对配置不当的 Hadoop Clusters 与 CouchDB 服务器展开攻击活动。

2647 0 0

梅熙

分布式计算 Hadoop API

博文

使用hadoop restful api实现对集群信息的统计

本文根据hadoop/spark的RESTful API，实现了对集群基本信息的统计功能，包括HDFS文件系统、job情况、资源队列情况的统计。这些API只提供了基础的数据，具体的统计与分析，还需要基于这些基础数据做一些简单的开发。

5114 0 1

开源大数据EMR

人工智能分布式计算大数据

博文

开源大数据周刊-第55期

云HBase新增支持深圳、上海区域、支持超过2个节点及高配节点。

3580 0 0

开源大数据EMR

机器学习/深度学习 Web App开发安全

博文

开源大数据周刊-第54期

4873 0 0

梅熙

分布式计算大数据 Hadoop

博文

EMR集群上capacity scheduler的ACL实现

本文接着yarn capacity scheduler的实现原理，介绍了capacity scheduler的设置和其中需要注意的问题，并结合EMR集群做了实际操作实验。

5904 0 0

开源大数据EMR

机器学习/深度学习人工智能算法

博文

开源大数据周刊-第52期

利用yarn capacity scheduler在EMR集群上实现大集群的多租户的集群资源隔离和quota限制本文结合EMR集群，讲述了如何利用yarn capacity scheduler在EMR集群上实现大集群的多租户的集群资源quota限制与管控。

3104 0 0

梅熙

分布式计算资源调度大数据

博文

利用yarn capacity scheduler在EMR集群上实现大集群的多租户的集群资源隔离和quota限制

本文结合EMR集群，讲述了如何利用yarn capacity scheduler在EMR集群上实现大集群的多租户的集群资源quota限制与管控。

7076 0 0

寒沙牧

分布式计算 Hadoop 数据安全/隐私保护

博文

E-MapReduce集群中HDFS服务集成Kerberos

本文介绍在E-MapReduce集群中HDFS服务集成Kerberos。

6746 0 0

计算爱好者

资源调度大数据 Shell

博文

E-MapReduce集群启停HDFS/YARN服务

该文章意在帮助大家，在E-MapReduce环境中停止启动yarn，hdfs服务。

2479 0 0

寒沙牧

分布式数据库 Hbase

博文

E-MapReduce启动/停止HBase集群

E-MapReduce的HBase集群启动/停止方式

5602 0 0

开源大数据EMR

存储消息中间件人工智能

博文

开源大数据周刊-第51期

2296 0 0

开源大数据EMR

机器学习/深度学习存储人工智能

博文

开源大数据周刊-第50期

本周刊的内容包括人工智能在软件和硬件上的最新进展，以及Kylin、Kudu等开源软件的实践和实现原理分析

3438 0 0

开源大数据EMR

人工智能分布式计算安全

博文

开源大数据周刊-第49期

2150 0 0

开源大数据EMR

人工智能分布式计算算法

博文

开源大数据周刊-第48期

2197 0 0

云无谓

机器学习/深度学习分布式计算算法

博文

开源深度学习库BigDL在阿里云E-MapReduce上的实践

近些年来机器学习中的子领域深度学习成为一个热门的话题。本文要介绍Intel开源的深度学习框架BigDL，它也是在Spark上的一个算法库，提供了全面的深度学习算法支持，包括数值计算（Tensor）和高阶神经网络等。

7322 0 0

寒沙牧

分布式计算负载均衡 Hadoop

博文

E-MapReduce中引导操作安装使用Kylin

目前E-MapReduce的开源组件还未包含Kylin，下面介绍一种通过创建集群时设置的引导操作来完成集群上Kylin的部署。

4578 0 0

开源大数据EMR

分布式计算安全大数据

博文

开源大数据周刊-第46期

2633 0 0

开源大数据EMR

机器学习/深度学习存储分布式计算

博文

开源大数据周刊-第45期

阿里云E-MapReduce实践云HBase助力物联网建设物联网最大的特点写入量大，要求延迟低，且数据存量巨大。云HBase非常满足物联网存储需求，存储数P甚至百P的空间存储需求，延迟稳定在数毫秒之内，跟Hadoop分析体系有较为深入的结合，满足分析类的需求。

2525 0 0

开源大数据EMR

机器学习/深度学习 Web App开发人工智能

博文

开源大数据周刊-第43期

阿里云E-MapReduce动态 E-MapReduce发布新版本，可以在控制台管理meta表结构。资讯人脸识别，要靠哪些技术支撑，是否会泄露个人隐私？本文介绍人脸识别用到哪些技术，讨论如何保护用户隐私一图看懂AI阵营：学习AI 站错队可导致自取灭亡本文介绍现在AI技术阵营，对AI各流派进行细分，梳理了17种方法，并用图直观展现。

1887 0 0

寒沙牧

分布式计算 MaxCompute Spark

博文