开源大数据平台 E-MapReduce-阿里云开发者社区-阿里云

开发者社区> 大数据与机器学习> 开源大数据平台 E-MapReduce

开源大数据平台 E-MapReduce

关注

阿里云EMR是云原生开源大数据平台,为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎,计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。

0
今日
1596
内容
12
活动
5377
关注
|
Web App开发 分布式计算 测试技术
|

【译】Apache Spark 2.4 内置数据源 Apache Avro

原文链接: Apache Avro as a Built-in Data Source in Apache Spark 2.4 Apache Avro 是一种流行的数据序列化格式。它广泛使用于 Apache Spark 和 Apache Hadoop 生态中,尤其适用于基于 Kafka 的数据流场景。

3173 0
|
分布式计算 Spark 流计算
|

Apache Spark 系列技术直播 - 从 Spark Streaming 到 Structured Streaming

本期分享主题:From Spark Streaming to Structured Streaming 视频地址:https://admin-yq.aliyun.com/admin/op/OssUpload PPT地址:https://yq.

1796 0
|
分布式计算 Apache Spark
|

Apache Spark中国社群 有奖投稿通道 启动啦!

感谢对 Apache Spark 中国社区的关注和支持!如果您有意为 Apache Spark 中国社区投稿请关注如下的内容。 投稿内容要求: 内容要求是 Apache Spark 相关的技术内容,可以是对 Apache Spark 的分析,也可以是 Apache Spark 的实践。

1103 0
|
SQL 分布式计算 Apache
|

Apache Spark 系列技术直播 - Spark SQL进阶与实战

Spark SQL进阶与实战 Spark相关组件介绍 Spark及其依赖组件 Hive Metastore介绍 Spark Thrift Server介绍 表与ETL Spark表基本概念 Spark建表最佳实践 Spark ETL最佳实践 动态分区表示例分析 Spark SQL查询最佳实践 Sp.

3332 0
|
SQL 分布式计算 Scala
|

[转载] 是时候学习真正的 spark 技术了

spark sql 可以说是 spark 中的精华部分了,我感觉整体复杂度是 spark streaming 的 5 倍以上,现在 spark 官方主推 structed streaming, spark streaming 维护的也不积极了, 我们基于 spark 来构建大数据计算任务,重心也要...

2455 0
|
消息中间件 分布式计算 Kafka
|

[转载] Spark Structed Streaming执行过程

在Struct Streaming中增加了支持sql处理流数据,在sql包中单独处理,其中StreamExecution是下面提到两处流处理的基类,这个流查询在数据源有新数据到达时会生成一个QueryExecution来执行并将结果输出到指定的Sink(处理后数据存放地)中。

2463 0
|
存储 分布式计算 流计算
|

[转载] Spark Streaming 设计原理

最近两年流式计算又开始逐渐火了起来,说到流式计算主要分两种:continuous-based 和 micro-batch。最近在使用基于 micro-batch 模式的 Spark Streaming,正好结合论文介绍一下。

2156 0

SparkSQL实践与优化

SQL实践:1.多数据源支持 2.多数据类型支持 3.多组件对接

2168 0
|
SQL
|

SparkSQL Catalyst解析

Catalyst Optimizer是SparkSQL的核心组件(查询优化器),它负责将SQL语句转换成物理执行计划,Catalyst的优劣决定了SQL执行的性能。

4609 0
|
SQL 分布式计算 Apache
|

Apache Spark 系列技术直播 - Spark SQL 实践与优化

Apache Spark 系列技术直播 Spark SQL 实践与优化 内容简介: SparkSQL介绍 基本原理 支持的DataSource介绍 Hue/Zepplin/Livy周边跟SparkSQL的集成使用等 SparkSQL优化 SparkSQL Catalyst优化 AE优化 Shuffle优化 直播时间: 2018.

3289 0
|
SQL 分布式计算 测试技术
|

扩展Spark Catalyst,打造自定义的Spark SQL引擎

在Spark2.2版本中,引入了新的扩展点,使得用户可以在Spark session中自定义自己的parser,analyzer,optimizer以及physical planning stragegy rule。

4036 0
|
SQL Scala Python
|

[译]介绍Spark2.4的用于处理复杂数据类型的新内置函数与高阶函数

Apache Spark2.4引入了29个新的内置函数用于处理复杂数据类型(比如,数组类型等),新的内置函数也包括高阶函数。 在Spark2.4版本之前,有两种典型的方式处理复杂数据类型: 1. 将嵌套结构的数据转化为多行数据,然后使用函数处理,最后在组装成嵌套结构。

1801 0
|
机器学习/深度学习 人工智能 分布式计算
|

开源大数据周刊-第107期

1月14日,英特尔人工智能大会(AIDC 2018)在北京国贸酒店举行。这是英特尔第三次在中国举行人工智能大会,也是第一次专门面向开发者和技术社区。大会上,英特尔发布了Neural Compute Stick 2(神经计算棒二代),英特尔还展示了如何以底层计算能力赋能百度、腾讯、阿里、微软等合作伙伴,共同推进AI与物联网发展。

2241 0
|
SQL 分布式计算 Java
|

使用ApacheDS对Presto用户进行认证

Presto可以对接LDAP,实现用户密码认证。只需要Coordinator节点对接LDAP即可。主要步骤如下: 1.配置ApacheDS,启用LDAPS 2. 在ApacheDS中创建用户信息 3. 配置Presto Coordinator,重启生效 4. 验证配置

4241 0
|
SQL 分布式计算 大数据
|

初学Spark

介绍大数据处理引擎Spark的特点,以及它的技术栈

2110 0
|
Java 数据库连接
|

HiveServer2集成LDAP做用户认证

HiveServer2支持多种认证方式,通过`hive.server2.authentication`参数来设置,包括`nosasl, none, ldap, kerberos, pam, custom` 本文介绍如何在E-MapReduce中使用LDAP配置HiveServer的认证。

6329 0
|
机器学习/深度学习 分布式计算 算法
|

开源大数据周刊-第106期

Apache Kylin社区于日前宣布:Apache Kylin v2.5.1 正式发布!Apache Kylin 是一个开源的分布式分析引擎,提供 Hadoop 之上的 SQL 查询接口及多维分析(OLAP)能力,支持对超大规模数据进行亚秒级查询。

1709 0
|
分布式计算 Spark
|

欢迎加入Spark中国社区

欢迎大家关注Spark中国社区! 社区成员会定期把Spark(全球)社区的最新发布、文档等翻译后放到社区,并经常组织社区成员线上、线下的直播分享、meetup以及有奖比赛等活动,非常欢迎大家加入社区,对于发帖、提问、答疑的同学,社区会给予特色的奖励 Spark社群钉钉群

8663 1
|
机器学习/深度学习 人工智能 自然语言处理
|

开源大数据周刊-第105期

资讯 340亿美元收购红帽,IBM在拥挤的云市场另辟蹊径 Hadoop真的要死了吗?程序员的革命or灾难:机器人在GitHub修复bug、与人不相上下 基于TensorFlow Serving的深度学习在线预估 如期而至!谷歌开源 BERT 模型源代码 4年数据涨万倍,Uber大数据平台四...

1453 0
|
机器学习/深度学习 分布式计算 大数据
|

开源大数据周刊-第104期

资讯 谷歌、亚马逊、阿里纷纷入局,边缘计算的潜力如何? 从智能手机到可穿戴设备,从医疗到汽车以及工业制造,边缘计算正在上演一个又一个行业传奇,它的落脚点是要让终端成为更智慧的存在——能够实时处理数据、能够低延时做出反馈——这不就是我们期待中的智能设备吗? 如此多的深度学习框架,为什么我选择PyTorch? 不久前,Facebook 在首届 PyTorch 开发者大会发布了 PyTorch1.0 预览版,标志着这一框架更为稳定可用。

1493 0
|
机器学习/深度学习 数据可视化 大数据
|

开源大数据周刊-第103期

Google宣布在2016年发布的数据可视化工具Data Studio,以及2017年发布的的数据预先处理服务Cloud Dataprep,现在都正式可用。

1651 0
|
存储 分布式计算 大数据
|

开源大数据周刊-第102期

1566 0
|
新零售 Web App开发 人工智能
|

开源大数据周刊-第101期

1342 0
|
机器学习/深度学习 SQL 分布式计算
|

开源大数据周刊-第100期

2027 0
|
SQL 调度 分布式计算
|

SparkSQL自适应执行

阿里云EMR-3.13.0版本的SparkSQL支持自适应执行功能,用来解决Reduce个数的动态调整/数据倾斜/执行计划的动态优化问题。

9084 0
|
机器学习/深度学习 SQL 监控
|

开源大数据周刊-第99期

资讯 谷歌重磅开源强化学习框架Dopamine谷歌推出了一款全新的开源强化学习框架 Dopamine,该框架基于 TensorFlow,主打灵活性、稳定性、复现性,能够提供快速的基准测试。 整合AI和数据科学新利器:基于Apache Spark的Hydrogen项目以往数据集的准备以及模型的训练工作是分开的,这两部分工作相当于存在两套系统中。

1715 0
|
人工智能 算法 大数据
|

开源大数据周刊-第98期

产品资讯 E-MapReduce 发布新版工作流调度还在困惑怎么管理Hadoop,Hive,Spark等作业和项目,怎么灵活可靠的调度吗?从EMR工作流开始吧 E-MapReduce 发布弹性伸缩当你需要按照时间段弹性的添加计算节点,补充计算能力的时候,弹性伸缩利用云上的弹性来灵活扩展你的计算力 资讯 华尔街看涨大数据广告市场 品友等AI营销技术公司或受资本追捧据媒体报道,在纳斯达克挂牌上市的广告科技公司The Trade Desk10日股价大涨逾37%至127.93美元,成为当日美股市场涨幅最高的股票。

1600 0
|
机器学习/深度学习 人工智能 大数据
|

开源大数据周刊-第97期

本期周刊带来了开源社区重要的产品更新,包括Flink和Alluxio等,还有互联网一线公司以及传统银行业的最新大数据应用实践。

6813 0
|
人工智能 大数据 TensorFlow
|

开源大数据周刊-2018年08月10日 第96期

开源大数据周刊-2018年08月10日 第96期

2016 0
|
缓存 固态存储 大数据
|

一种堆外内存缓存策略加速数据写OSS

1950 0
|
存储 消息中间件 大数据
|

E-MapReduce上如何采集Kafka客户端Metrics

我们知道Kafka提供一套非常完善的Metrics数据,覆盖Broker,Consumer,Producer,Stream以及Connect。E-MapReduce通过Ganglia收集了Kafka Broker metrics信息,可以很好地监控Broker运行状态。

6621 0
|
人工智能 分布式计算 大数据
|

开源大数据周刊-2018年08月03日 第95期

开源大数据周刊-2018年08月03日 第95期

1808 0
|
机器学习/深度学习 监控 安全
|

开源大数据周刊-2018年07月27日 第94期

2255 0
|
机器学习/深度学习 存储 监控
|

开源大数据周刊-2018年07月13日 第93期

开源大数据周刊-2018年07月13日 第93期

1791 0
|
SQL 分布式计算 大数据
|

开源大数据周刊-第91期

资讯 大数据,让国防交通民用运力装上智慧大脑战争年代,人民群众推着小推车踊跃支前。如今,在大数据支持下,国防交通民用运力动员会发生怎样的变化? AI玩虐人工!“Magic”世界杯集锦“炫”出新高度2017年12月26日,新华社向全球发布了中国第一个媒体人工智能平台——媒体大脑1.0,引起海内外广泛关注。

3866 0
|
Web App开发 SQL 监控
|

开源大数据周刊-第90期

9697 0
|
SQL NoSQL Java
|

在 EMR 中使用 Mongo-Hadoop

2687 0
|
SQL 分布式计算 Java
|

在 EMR 中使用 ES-Hadoop

4092 0
|
人工智能 算法 物联网
|

开源大数据周刊-第89期

资讯 Databricks开源机器学习平台MLFlow本文主要介绍Databricks开源机器学习平台MLFlow基础。 全民讨伐 Google AI “作恶”项目内部员工的严重抗议,终于让谷歌在 AI 武器化的道路上悬崖勒马了。

2871 0
|
分布式计算 druid Shell
|

EMR Druid 探索(二)

EMR Druid 探索(二) EMR Druid 上文介绍了 Druid 的特点、使用场景以及性能。EMR 在 3.11.0 引入了 Druid,并专门推出了一种新的集群类型:Druid 集群。在具体使用时,Druid 集群可以与 Hadoop 集群结合,以 HDFS 集群作为 deep storage 的存储,以 YARN 作为批量索引的计算引擎。

2772 0
|
机器学习/深度学习 负载均衡 算法
|

开源大数据周刊-第87期

1562 0
|
分布式计算 资源调度 Hadoop
|

都是default惹的祸-yarn调度(一)-fair调度器drf调度策略作业不执行问题的调查和源码分析

问题背景 yarn的fair类型资源池,是企业级hadoop用户常用的资源池类型。该资源池默认的队列调度策略是fair,即分配资源时只考虑内存限制。 对一个多个团队混合使用的大集群来说,如果想要在分配资源时同时考虑内存和cpu限制,需要指定调度策略为drf。

3970 0
|
消息中间件 关系型数据库 Kafka
|

如何使用Kafka Connect实现同步RDS binlog数据

本文介绍如何在E-MapReduce上使用Kafka Connect实现同步RDS binlog数据

16016 1

为什么要写技术文章-我对写作收获的理解

为了迎接更好的自己。 过去的止步不前 程序员最反感别人没写文档,最不喜欢自己写文档。 我一直很认同技术人员应该持续写技术文章,可以总结经验,打造个人品牌,等等。但加上公司内部分享,实际也没写多少篇,这可能也是很多技术人员的通病吧。

2664 0
|
存储 大数据 分布式数据库
|

开源大数据周刊-第85期

资讯 美国公布长达35页的《2016-2045年新兴科技趋势报告》, Hadoop社区最新动态

2398 0
|
SQL 分布式计算 监控
|

hive在E-MapReduce集群的实践(一)hive异常排查入门

hive是hadoop集群最常用的数据分析工具,只要运行sql就可以分析海量数据。初学者在使用hive时,经常会遇到各种问题,不知道该怎么解决。 本文是hive实践系列的第一篇,以E-MapReduce集群环境为例,介绍常见的hive执行异常,定位和解决方法,以及hive日志查看方法。

6841 0
|
消息中间件 分布式计算 大数据
|

开源大数据周刊-第83期

资讯 最高法院就Microsoft云计算案的法律问题开展口辩论本案对Microsoft的裁决,可能将会要求位于美国的企业提交其存储在国外服务器上的美国执法数据。在这种情况下,位于美国的企业可能将无法为国外提供许多云计算服务。

3850 0
我要发布