开发者社区> 大数据与机器学习> 开源大数据平台 E-MapReduce

开源大数据平台 E-MapReduce

关注

阿里云EMR是云原生开源大数据平台,为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎,计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。

0
今日
1634
内容
13
活动
5424
关注
|
机器学习/深度学习 人工智能 大数据
|

开源大数据周刊-第81期

2782 0
|
资源调度 测试技术 Apache
|

YARN中的CPU资源隔离-CGroups

YARN中集成了CGroups的功能,使得NodeManger可以对container的CPU的资源使用进行控制,比如可以对单个container的CPU使用进行控制,也可以对NodeManger管理的总CPU进行控制。

10454 1
|
机器学习/深度学习 SQL 人工智能
|

开源大数据周刊-第80期

奇虎360正式开源其高性能KV存储平台Zeppelin,Zeppelin 是奇虎 360 开源的一个高性能,高可用的分布式 Key-Value 存储平台,它以高性能、大集群为目标,并希望能在 Zeppelin 的基础上,不仅能够提供 KV 的访问,还可以通过简单的一层转换满足更复杂的协议需求。

3420 0
|
Web App开发 SQL 大数据
|

阿里云AnalyticDB数据导出到E-MapReduce实践

阿里云的分析型数据库(AnalyticDB)和E-MapReduce(简称EMR)在大数据场景下非常有用,本文将介绍如何尝试打通两个产品,将通过EMR中自带的开源工具Sqoop来完成这个任务。

4489 0
|
机器学习/深度学习 人工智能 安全
|

开源大数据周刊-第79期

资讯 警惕大数据成了互联网的“PX项目” 新年伊始 BAT 三家关于数据安全的新闻就成功的吸引了公众的目光,也引发了公众对于大公司收集并使用用户数据的担忧。这篇文章比较客观的分析了公众的忧虑,以及互联网公司如何使用这些数据,可以说是一个很好数据安全的科普。

2277 0
|
SQL 分布式计算 关系型数据库
|

自建hadoop集群迁移到EMR之数据迁移篇

自建集群要迁移到EMR集群,往往需要迁移已有数据。本文主要介绍hdfs数据和hive meta数据如何迁移。 前置 已按需求创建好EMR集群。 迁移hdfs数据 主要依靠distcp,核心是打通网络,确定hdfs参数和要迁移内容,测速,迁移。

3975 0
|
Java 分布式数据库 Apache
|

HBase ThriftServer Kerberos认证

8707 0
|
大数据 Apache 流计算
|

开源大数据周刊-第78期

新功能预告:EMR Hadoop集群将增加Flink组件,版本1.4.0;EMR Kafka集群将增加Schema Registry和Rest Proxy组件

3330 0
|
人工智能 算法 安全
|

开源大数据周刊-第77期

资讯 锤炼视频大数据时代的“火眼金睛” 我们身处一个大数据的时代,视频数据的爆炸性增长是这个时代的重要特征之一。如何让计算机看懂视频的内容,实现对海量视频数据的检索和分析是有效管理和利用视频大数据的关键。

2940 0
|
分布式计算 大数据 Hadoop
|

HAS-插件式Kerberos认证框架

HAS (Hadoop Authentication Service), 致力于解决开源大数据服务和生态系统的认证支持。目前开源大数据(Hadoop/Spark)在安全认证上只内置支持了Kerberos方式,HAS提出了一种新的认证方式, 通过与现有的认证和授权体系进行对接,使得在Hadoop/Spark在上面支持Kerberos以外的认证方式变成可能,并对最终用户简化和隐藏Kerberos的复杂性。

8865 0
|
资源调度 安全 大数据
|

云上基于Kerberos的大数据安全实践

4160 0
|
分布式计算 安全 大数据
|

开源大数据周刊-第76期

本期周刊包括开源大数据核心组件Hadoop和Impala的最新消息,以及HBase、Kafka、TensorFlow等主流开源组件的实践分享和技术实现,还有来自京东推荐部门的推荐系统演进史,纯干货分享。

3519 0
|
安全 大数据 分布式数据库
|

E-MapReduce大数据安全实践

E-MapReduce从EMR-2.7.x/EMR-3.5.x版本开始支持创建安全类型的集群,即集群中的开源组件以Kerberos的安全模式启动,在这种安全环境下只有经过认证的客户端(Client)才能访问集群的服务(Service,如HDFS)。

6562 0
|
机器学习/深度学习 消息中间件 人工智能
|

开源大数据周刊-第73期

资讯 国家公布人工智能四大平台 AI的春天到了? 日前,科技部召开新一代人工智能发展规划暨重大科技项目启动会,并公布首批国家新一代人工智能开放创新平台名单,标志着新一代人工智能发展规划和重大科技项目进入全面启动实施阶段。

3866 0
|
大数据 TensorFlow Apache
|

开源大数据周刊-第71期

2607 0
|
分布式计算 大数据 Hadoop
|

E-MapReduce上如何升级EMR-Core

本文档将介绍如何将老集群的EMR-Core升级到最新版本 什么是EMR-Core EMR-Core是E-MapReduce集群上支持Hadoop生态组件读写OSS的依赖包。它提供一种高效地读写OSS数据的实现,并不断地在优化中。

2682 0
|
机器学习/深度学习 分布式计算 大数据
|

开源大数据周刊-第70期

资讯: 推动云基础设施创新,英特尔与阿里云的“软硬合唱” 对于一家云服务厂商来说,实现软件、服务与硬件基础设施的完美整合,是在激烈市场竞争中的关键点。

2258 0
|
消息中间件 机器学习/深度学习 大数据
|

开源大数据周刊-第69期

资讯: 阿里巴巴成立达摩院,三年1000亿旨在创造颠覆性基础技术 10 月 11 日,2017 杭州·云栖大会开幕。会上,阿里巴巴集团首席技术官张建锋宣布阿里巴巴成立全球研究院达摩院,进行基础科学和颠覆式技术创新研究,并将在未来 3 年投入 1000 亿元进行基础科学研发。

2158 0
|
分布式计算 大数据 TensorFlow
|

开源大数据周刊-第68期

资讯: 2020年我国大数据产业将破万亿 近日,《2017中国大数据产业发展白皮书》发布。《每日经济新闻》记者对照工信部及各地出台的大数据发展规划进行梳理后发现,到2020年,我国大数据相关产品和服务业务收入将突破1万亿元,年均复合增长率保持30%左右。

2411 0
|
消息中间件 人工智能 分布式计算
|

开源大数据周刊-第67期

3324 0
|
存储 消息中间件 大数据
|

开源大数据周刊-第66期

6758 0
|
分布式计算 Hadoop 大数据
|

E-MapReduce HDFS文件快速CRC校验工具介绍

在大数据应用场景下经常有数据文件的迁移工作,如果保障迁移之后数据的完整性是一个很常见的问题。本文就给大家介绍一下在大数据场景下,如何用工具快速对比文件。

5362 0
|
机器学习/深度学习 人工智能 分布式计算
|

开源大数据周刊-第62期

2601 0
|
分布式计算 Spark
|

在E-MapReduce集群内运行Spark GraphX作业

Spark GraphX是一个比较流行的图计算框架,如果你使用了阿里云的E-MapReduce服务,可以很方便的运行图计算的作业。 下面以PageRank为例,看看如何运行GraphX作业

2923 0
|
SQL 分布式计算 大数据
|

开源大数据周刊-第61期

7505 0
|
机器学习/深度学习 分布式计算 大数据
|

开源大数据周刊-第58期

阿里云E-Mapreduce动态: EMR即将在新的版本中支持本地盘机型,大幅降低集群的存储成本。 资讯 借助亚马逊AWS Sno大数据如何改变垂直电商? 垂直电商仍旧将是平台电商们在未来极其有力的竞争者和合作者。

2373 0
|
网络协议 Linux 分布式数据库
|

TCP的backlog导致的HBase超时问题排查

TCP的backlog导致的超时问题排查

3162 0
|
机器学习/深度学习 分布式计算 大数据
|

开源大数据周刊-第57期

ECM功能上线北京region,用户可以通过EMR-3.2.0版本创建新集群体验,ECM提供组件的配置修改/起停等操作

2329 0
|
SQL 分布式计算 Hadoop
|

搭建Gateway向E-MapReduce集群提交作业

搭建Gateway向E-MapReduce集群提交作业

2597 0
|
分布式计算 大数据 Hadoop
|

开源大数据周刊-第56期

阿里云E-Mapreduce实践: 使用hadoop restful api实现对集群信息的统计 资讯 全球因Hadoop服务器配置不当导致的数据泄露或达5120TB 网络犯罪分子近期开始针对配置不当的 Hadoop Clusters 与 CouchDB 服务器展开攻击活动。

2689 0
|
分布式计算 Hadoop API
|

使用hadoop restful api实现对集群信息的统计

本文根据hadoop/spark的RESTful API,实现了对集群基本信息的统计功能,包括HDFS文件系统、job情况、资源队列情况的统计。这些API只提供了基础的数据,具体的统计与分析,还需要基于这些基础数据做一些简单的开发。

5183 0
|
人工智能 分布式计算 大数据
|

开源大数据周刊-第55期

云HBase新增支持深圳、上海区域、支持超过2个节点及高配节点。

3619 0
|
机器学习/深度学习 Web App开发 安全
|

开源大数据周刊-第54期

4895 0
|
分布式计算 大数据 Hadoop
|

EMR集群上capacity scheduler的ACL实现

本文接着yarn capacity scheduler的实现原理,介绍了capacity scheduler的设置和其中需要注意的问题,并结合EMR集群做了实际操作实验。

5948 0
|
机器学习/深度学习 人工智能 算法
|

开源大数据周刊-第52期

利用yarn capacity scheduler在EMR集群上实现大集群的多租户的集群资源隔离和quota限制 本文结合EMR集群,讲述了如何利用yarn capacity scheduler在EMR集群上实现大集群的多租户的集群资源quota限制与管控。

3140 0
|
分布式计算 资源调度 大数据
|

利用yarn capacity scheduler在EMR集群上实现大集群的多租户的集群资源隔离和quota限制

本文结合EMR集群,讲述了如何利用yarn capacity scheduler在EMR集群上实现大集群的多租户的集群资源quota限制与管控。

7193 0
|
分布式计算 Hadoop 数据安全/隐私保护
|

E-MapReduce集群中HDFS服务集成Kerberos

本文介绍在E-MapReduce集群中HDFS服务集成Kerberos。

6799 0
|
资源调度 大数据 Shell
|

E-MapReduce集群启停HDFS/YARN服务

该文章意在帮助大家,在E-MapReduce环境中停止启动yarn,hdfs服务。

2499 0
|
分布式数据库 Hbase
|

E-MapReduce启动/停止HBase集群

E-MapReduce的HBase集群启动/停止方式

5659 0
|
存储 消息中间件 人工智能
|

开源大数据周刊-第51期

2317 0
|
机器学习/深度学习 存储 人工智能
|

开源大数据周刊-第50期

本周刊的内容包括人工智能在软件和硬件上的最新进展,以及Kylin、Kudu等开源软件的实践和实现原理分析

3465 0
|
人工智能 分布式计算 安全
|

开源大数据周刊-第49期

开源大数据周刊-第49期

2159 0
|
人工智能 分布式计算 算法
|

开源大数据周刊-第48期

2233 0
|
机器学习/深度学习 分布式计算 算法
|

开源深度学习库BigDL在阿里云E-MapReduce上的实践

近些年来机器学习中的子领域深度学习成为一个热门的话题。本文要介绍Intel开源的深度学习框架BigDL,它也是在Spark上的一个算法库,提供了全面的深度学习算法支持,包括数值计算(Tensor)和高阶神经网络等。

7379 0
|
分布式计算 负载均衡 Hadoop
|

E-MapReduce中引导操作安装使用Kylin

目前E-MapReduce的开源组件还未包含Kylin,下面介绍一种通过创建集群时设置的引导操作来完成集群上Kylin的部署。

4659 0
|
分布式计算 安全 大数据
|

开源大数据周刊-第46期

2690 0
|
机器学习/深度学习 存储 分布式计算
|

开源大数据周刊-第45期

阿里云E-MapReduce实践 云HBase助力物联网建设 物联网最大的特点写入量大,要求延迟低,且数据存量巨大。云HBase非常满足物联网存储需求,存储数P甚至百P的空间存储需求,延迟稳定在数毫秒之内,跟Hadoop分析体系有较为深入的结合,满足分析类的需求。

2538 0
|
机器学习/深度学习 Web App开发 人工智能
|

开源大数据周刊-第43期

阿里云E-MapReduce动态 E-MapReduce发布新版本,可以在控制台管理meta表结构。 资讯 人脸识别,要靠哪些技术支撑,是否会泄露个人隐私? 本文介绍人脸识别用到哪些技术,讨论如何保护用户隐私 一图看懂AI阵营:学习AI 站错队可导致自取灭亡 本文介绍现在AI技术阵营,对AI各流派进行细分,梳理了17种方法,并用 图直观展现。

1901 0
|
分布式计算 MaxCompute Spark
|

E-MapReduce中Spark 2.x读写MaxCompute数据

最新的`aliyun-emapreduce-sdk`将`MaxCompute`数据以`DataSource`的方式接入Spark 2.x,用户可以使用类似Spark 2.x中读写`json/parquet/csv`的方式来访问MaxCompute.

7177 0
我要发布