开发者社区> 大数据与机器学习> 开源大数据平台 E-MapReduce

开源大数据平台 E-MapReduce

关注

阿里云EMR是云原生开源大数据平台,为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎,计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。

0
今日
1629
内容
13
活动
5419
关注
|
SQL Scala Python
|

[译]介绍Spark2.4的用于处理复杂数据类型的新内置函数与高阶函数

Apache Spark2.4引入了29个新的内置函数用于处理复杂数据类型(比如,数组类型等),新的内置函数也包括高阶函数。 在Spark2.4版本之前,有两种典型的方式处理复杂数据类型: 1. 将嵌套结构的数据转化为多行数据,然后使用函数处理,最后在组装成嵌套结构。

1887 0
|
机器学习/深度学习 人工智能 分布式计算
|

开源大数据周刊-第107期

1月14日,英特尔人工智能大会(AIDC 2018)在北京国贸酒店举行。这是英特尔第三次在中国举行人工智能大会,也是第一次专门面向开发者和技术社区。大会上,英特尔发布了Neural Compute Stick 2(神经计算棒二代),英特尔还展示了如何以底层计算能力赋能百度、腾讯、阿里、微软等合作伙伴,共同推进AI与物联网发展。

2318 0
|
SQL 分布式计算 Java
|

使用ApacheDS对Presto用户进行认证

Presto可以对接LDAP,实现用户密码认证。只需要Coordinator节点对接LDAP即可。主要步骤如下: 1.配置ApacheDS,启用LDAPS 2. 在ApacheDS中创建用户信息 3. 配置Presto Coordinator,重启生效 4. 验证配置

4507 0
|
SQL 分布式计算 大数据
|

初学Spark

介绍大数据处理引擎Spark的特点,以及它的技术栈

2231 0
|
Java 数据库连接
|

HiveServer2集成LDAP做用户认证

HiveServer2支持多种认证方式,通过`hive.server2.authentication`参数来设置,包括`nosasl, none, ldap, kerberos, pam, custom` 本文介绍如何在E-MapReduce中使用LDAP配置HiveServer的认证。

6569 0
|
机器学习/深度学习 分布式计算 算法
|

开源大数据周刊-第106期

Apache Kylin社区于日前宣布:Apache Kylin v2.5.1 正式发布!Apache Kylin 是一个开源的分布式分析引擎,提供 Hadoop 之上的 SQL 查询接口及多维分析(OLAP)能力,支持对超大规模数据进行亚秒级查询。

1775 0
|
分布式计算 Spark
|

欢迎加入Spark中国社区

欢迎大家关注Spark中国社区! 社区成员会定期把Spark(全球)社区的最新发布、文档等翻译后放到社区,并经常组织社区成员线上、线下的直播分享、meetup以及有奖比赛等活动,非常欢迎大家加入社区,对于发帖、提问、答疑的同学,社区会给予特色的奖励 Spark社群钉钉群

9523 1
|
机器学习/深度学习 人工智能 自然语言处理
|

开源大数据周刊-第105期

资讯 340亿美元收购红帽,IBM在拥挤的云市场另辟蹊径 Hadoop真的要死了吗?程序员的革命or灾难:机器人在GitHub修复bug、与人不相上下 基于TensorFlow Serving的深度学习在线预估 如期而至!谷歌开源 BERT 模型源代码 4年数据涨万倍,Uber大数据平台四...

1515 0
|
机器学习/深度学习 分布式计算 大数据
|

开源大数据周刊-第104期

资讯 谷歌、亚马逊、阿里纷纷入局,边缘计算的潜力如何? 从智能手机到可穿戴设备,从医疗到汽车以及工业制造,边缘计算正在上演一个又一个行业传奇,它的落脚点是要让终端成为更智慧的存在——能够实时处理数据、能够低延时做出反馈——这不就是我们期待中的智能设备吗? 如此多的深度学习框架,为什么我选择PyTorch? 不久前,Facebook 在首届 PyTorch 开发者大会发布了 PyTorch1.0 预览版,标志着这一框架更为稳定可用。

1555 0
|
机器学习/深度学习 数据可视化 大数据
|

开源大数据周刊-第103期

Google宣布在2016年发布的数据可视化工具Data Studio,以及2017年发布的的数据预先处理服务Cloud Dataprep,现在都正式可用。

1748 0
|
存储 分布式计算 大数据
|

开源大数据周刊-第102期

1660 0
|
新零售 Web App开发 人工智能
|

开源大数据周刊-第101期

1406 0
|
机器学习/深度学习 SQL 分布式计算
|

开源大数据周刊-第100期

2105 0
|
SQL 调度 分布式计算
|

SparkSQL自适应执行

阿里云EMR-3.13.0版本的SparkSQL支持自适应执行功能,用来解决Reduce个数的动态调整/数据倾斜/执行计划的动态优化问题。

9445 0
|
机器学习/深度学习 SQL 监控
|

开源大数据周刊-第99期

资讯 谷歌重磅开源强化学习框架Dopamine谷歌推出了一款全新的开源强化学习框架 Dopamine,该框架基于 TensorFlow,主打灵活性、稳定性、复现性,能够提供快速的基准测试。 整合AI和数据科学新利器:基于Apache Spark的Hydrogen项目以往数据集的准备以及模型的训练工作是分开的,这两部分工作相当于存在两套系统中。

1771 0
|
人工智能 算法 大数据
|

开源大数据周刊-第98期

产品资讯 E-MapReduce 发布新版工作流调度还在困惑怎么管理Hadoop,Hive,Spark等作业和项目,怎么灵活可靠的调度吗?从EMR工作流开始吧 E-MapReduce 发布弹性伸缩当你需要按照时间段弹性的添加计算节点,补充计算能力的时候,弹性伸缩利用云上的弹性来灵活扩展你的计算力 资讯 华尔街看涨大数据广告市场 品友等AI营销技术公司或受资本追捧据媒体报道,在纳斯达克挂牌上市的广告科技公司The Trade Desk10日股价大涨逾37%至127.93美元,成为当日美股市场涨幅最高的股票。

1667 0
|
机器学习/深度学习 大数据 Apache
|

开源大数据周刊-第97期

本期周刊带来了开源社区重要的产品更新,包括Flink和Alluxio等,还有互联网一线公司以及传统银行业的最新大数据应用实践。

6912 0
|
人工智能 大数据 TensorFlow
|

开源大数据周刊-2018年08月10日 第96期

开源大数据周刊-2018年08月10日 第96期

2102 0
|
缓存 固态存储 大数据
|

一种堆外内存缓存策略加速数据写OSS

2060 0
|
存储 消息中间件 大数据
|

E-MapReduce上如何采集Kafka客户端Metrics

我们知道Kafka提供一套非常完善的Metrics数据,覆盖Broker,Consumer,Producer,Stream以及Connect。E-MapReduce通过Ganglia收集了Kafka Broker metrics信息,可以很好地监控Broker运行状态。

6734 0
|
人工智能 分布式计算 大数据
|

开源大数据周刊-2018年08月03日 第95期

开源大数据周刊-2018年08月03日 第95期

1883 0
|
机器学习/深度学习 监控 安全
|

开源大数据周刊-2018年07月27日 第94期

2313 0
|
机器学习/深度学习 存储 监控
|

开源大数据周刊-2018年07月13日 第93期

开源大数据周刊-2018年07月13日 第93期

1864 0
|
SQL 分布式计算 大数据
|

开源大数据周刊-第91期

资讯 大数据,让国防交通民用运力装上智慧大脑战争年代,人民群众推着小推车踊跃支前。如今,在大数据支持下,国防交通民用运力动员会发生怎样的变化? AI玩虐人工!“Magic”世界杯集锦“炫”出新高度2017年12月26日,新华社向全球发布了中国第一个媒体人工智能平台——媒体大脑1.0,引起海内外广泛关注。

3938 0
|
Web App开发 SQL 监控
|

开源大数据周刊-第90期

9784 0
|
SQL NoSQL Java
|

在 EMR 中使用 Mongo-Hadoop

2807 0
|
SQL 分布式计算 Java
|

在 EMR 中使用 ES-Hadoop

4186 0
|
人工智能 算法 物联网
|

开源大数据周刊-第89期

资讯 Databricks开源机器学习平台MLFlow本文主要介绍Databricks开源机器学习平台MLFlow基础。 全民讨伐 Google AI “作恶”项目内部员工的严重抗议,终于让谷歌在 AI 武器化的道路上悬崖勒马了。

2942 0
|
分布式计算 druid 对象存储
|

EMR Druid 探索(二)

EMR Druid 探索(二) EMR Druid 上文介绍了 Druid 的特点、使用场景以及性能。EMR 在 3.11.0 引入了 Druid,并专门推出了一种新的集群类型:Druid 集群。在具体使用时,Druid 集群可以与 Hadoop 集群结合,以 HDFS 集群作为 deep storage 的存储,以 YARN 作为批量索引的计算引擎。

2862 0
|
机器学习/深度学习 负载均衡 算法
|

开源大数据周刊-第87期

1667 0
|
分布式计算 资源调度 Hadoop
|

都是default惹的祸-yarn调度(一)-fair调度器drf调度策略作业不执行问题的调查和源码分析

问题背景 yarn的fair类型资源池,是企业级hadoop用户常用的资源池类型。该资源池默认的队列调度策略是fair,即分配资源时只考虑内存限制。 对一个多个团队混合使用的大集群来说,如果想要在分配资源时同时考虑内存和cpu限制,需要指定调度策略为drf。

4219 0
|
消息中间件 关系型数据库 Kafka
|

如何使用Kafka Connect实现同步RDS binlog数据

本文介绍如何在E-MapReduce上使用Kafka Connect实现同步RDS binlog数据

16280 1

为什么要写技术文章-我对写作收获的理解

为了迎接更好的自己。 过去的止步不前 程序员最反感别人没写文档,最不喜欢自己写文档。 我一直很认同技术人员应该持续写技术文章,可以总结经验,打造个人品牌,等等。但加上公司内部分享,实际也没写多少篇,这可能也是很多技术人员的通病吧。

2823 0
|
存储 大数据 分布式数据库
|

开源大数据周刊-第85期

资讯 美国公布长达35页的《2016-2045年新兴科技趋势报告》, Hadoop社区最新动态

2463 0
|
SQL 分布式计算 监控
|

hive在E-MapReduce集群的实践(一)hive异常排查入门

hive是hadoop集群最常用的数据分析工具,只要运行sql就可以分析海量数据。初学者在使用hive时,经常会遇到各种问题,不知道该怎么解决。 本文是hive实践系列的第一篇,以E-MapReduce集群环境为例,介绍常见的hive执行异常,定位和解决方法,以及hive日志查看方法。

7314 0
|
机器学习/深度学习 人工智能 大数据
|

开源大数据周刊-第82期

总理政府工作报告:加强大数据发展和新一代人工智能研发应用。即将发布的 JDK 10 有 109 项新特性,你喜欢哪些?微软宣布在机器翻译方面取得突破,中翻英可达人类水平。推特爆款:谷歌大脑工程师的深度强化学习劝退文。

2316 0
|
SQL 网络协议 Java
|

通过Gateway访问Presto

本文介绍使用HAProxy反向代理实现通过Gateway节点访问Presto服务的方法。该方法也很容扩展到其他组件,如Impala等。

2894 0
|
资源调度 大数据 调度
|

Step by step,学习EMR集群的fair类型资源池

2085 0
|
SQL 大数据 HIVE
|

hive在E-MapReduce集群的实践(二)集群hive参数优化

本文介绍一些常见的集群跑hive作业参数优化,可以根据业务需要来使用。 提高hdfs性能 修改hdfs-site,注意重启hdfs服务 dfs.client.read.shortcircuit=true //直读 dfs.

7947 0
|
SQL 资源调度 测试技术
|

YARN ResourceManager重启作业保留机制

YARN可以通过相关配置支持ResourceManager重启过程中,不影响正在运行的作业,即重启后,作业还能正常继续运行直到结束

7687 0
|
消息中间件 大数据 测试技术
|

E-MapReduce Kafka Benchmark - I

本文介绍如何利用Kafka自带的性能测试脚本测试Kafka集群的性能,文末给出一份单机测试Kafka集群的性能数据。此数据仅供参考,不代表官方性能指标承诺。

3094 0
|
消息中间件 安全 Kafka
|

E-MapReduce Kafka Kerberos集群授权

3932 0
|
消息中间件 大数据 测试技术
|

如何在E-MapReduce上提交Storm作业处理Kafka数据

本文演示如何在E-MapReduce上部署Storm集群和Kafka集群,并运行Storm作业消费Kafka数据。

2896 0
|
机器学习/深度学习 人工智能 大数据
|

开源大数据周刊-第81期

2716 0
|
资源调度 测试技术 Apache
|

YARN中的CPU资源隔离-CGroups

YARN中集成了CGroups的功能,使得NodeManger可以对container的CPU的资源使用进行控制,比如可以对单个container的CPU使用进行控制,也可以对NodeManger管理的总CPU进行控制。

10217 1
|
机器学习/深度学习 SQL 人工智能
|

开源大数据周刊-第80期

奇虎360正式开源其高性能KV存储平台Zeppelin,Zeppelin 是奇虎 360 开源的一个高性能,高可用的分布式 Key-Value 存储平台,它以高性能、大集群为目标,并希望能在 Zeppelin 的基础上,不仅能够提供 KV 的访问,还可以通过简单的一层转换满足更复杂的协议需求。

3369 0
|
Web App开发 SQL 大数据
|

阿里云AnalyticDB数据导出到E-MapReduce实践

阿里云的分析型数据库(AnalyticDB)和E-MapReduce(简称EMR)在大数据场景下非常有用,本文将介绍如何尝试打通两个产品,将通过EMR中自带的开源工具Sqoop来完成这个任务。

4432 0
我要发布