开发者社区> 大数据与机器学习> 开源大数据平台 E-MapReduce

开源大数据平台 E-MapReduce

关注

阿里云EMR是云原生开源大数据平台,为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎,计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。

0
今日
1626
内容
12
活动
5387
关注
|
分布式计算 大数据 Apache
|

Apache Spark Meetup China 第1期 最全资料下载

活动时间:2018年12月16日13:30-17:00 活动地点:杭州市余杭区文一西路998号未来科技城海创园4幢801C 主办单位:阿里云、袋鼠云、云栖社区 主题介绍: 主题一、Spark优化实践-13:30 - 14:30阿里云E-MapReduce-王道远介绍阿里云EMR中Spark计算引擎所包含的一系列额外优化工作,包括SmartShuffle、file skip index等。

2289 0
|
SQL 分布式计算 Spark
|

【译】SQL Pivot介绍

本文介绍SQL Pivot以及如何使用该功能

2349 0
|
机器学习/深度学习 存储 分布式计算
|

【译】Apache spark 2.4:内置 Image Data Source的介绍

主要介绍Apache Spark 2.4版本内置Image Data Source数据源

1684 0
|
分布式计算 API Apache
|

# Apache spark系列技术直播# 第五讲【 Spark RDD编程入门 】

主讲人:王道远(健身) 阿里巴巴计算平台EMR技术专家 直播时间:2018.12.13(本周四)19:00 - 20:00 内容提要:本次讲座主要涵盖Spark RDD编程入门基础,包括: Spark、RDD简介 RDD API简介 打包与spark-submit 性能分析与调优基础 ppt链接:https://yq.

1548 0
|
分布式计算 API Apache
|

# Apache Spark系列技术直播# 第五讲【 Spark RDD编程入门 】

内容提要:本次讲座主要涵盖Spark RDD编程入门基础,包括:1. Spark、RDD简介 2. RDD API简介 3. 打包与spark-submit 4. 性能分析与调优基础主讲人:王道远(健身) 阿里巴巴计算平台EMR技术专家直播时间:2018.

1490 0
|
机器学习/深度学习 分布式计算 Apache
|

# Apache Spark系列技术直播# 第四讲 【 机器学习介绍与Spark MLlib实践 】

主讲人:江宇(燕回) 阿里巴巴计算平台EMR技术专家 直播时间:2018.12.06 19:00 - 20:00 内容提要:本次讲座主要面对的是机器学习的入门者,以及想要使用Spark来进行机器学习的用户。

1855 0
|
机器学习/深度学习 分布式计算 Apache
|

#Apache Spark系列技术直播# 第四讲 【 机器学习介绍与Spark MLlib实践 】

Apache Spark系列技术直播--第四讲 机器学习介绍与Spark MLlib实践 直播时间:2018.12.06 19:00 - 20:00 主讲人:江宇(燕回) 阿里巴巴计算平台EMR技术专家 内容提要:本次讲座主要面对的是机器学习的入门者,以及想要使用Spark来进行机器学习的用户。

1900 0
|
Web App开发 分布式计算 测试技术
|

【译】Apache Spark 2.4 内置数据源 Apache Avro

原文链接: Apache Avro as a Built-in Data Source in Apache Spark 2.4 Apache Avro 是一种流行的数据序列化格式。它广泛使用于 Apache Spark 和 Apache Hadoop 生态中,尤其适用于基于 Kafka 的数据流场景。

3210 0
|
分布式计算 Spark 流计算
|

Apache Spark 系列技术直播 - 从 Spark Streaming 到 Structured Streaming

本期分享主题:From Spark Streaming to Structured Streaming 视频地址:https://admin-yq.aliyun.com/admin/op/OssUpload PPT地址:https://yq.

1810 0
|
分布式计算 Apache Spark
|

Apache Spark中国社群 有奖投稿通道 启动啦!

感谢对 Apache Spark 中国社区的关注和支持!如果您有意为 Apache Spark 中国社区投稿请关注如下的内容。 投稿内容要求: 内容要求是 Apache Spark 相关的技术内容,可以是对 Apache Spark 的分析,也可以是 Apache Spark 的实践。

1121 0
|
SQL 分布式计算 Apache
|

Apache Spark 系列技术直播 - Spark SQL进阶与实战

Spark SQL进阶与实战 Spark相关组件介绍 Spark及其依赖组件 Hive Metastore介绍 Spark Thrift Server介绍 表与ETL Spark表基本概念 Spark建表最佳实践 Spark ETL最佳实践 动态分区表示例分析 Spark SQL查询最佳实践 Sp.

3341 0
|
SQL 分布式计算 Scala
|

[转载] 是时候学习真正的 spark 技术了

spark sql 可以说是 spark 中的精华部分了,我感觉整体复杂度是 spark streaming 的 5 倍以上,现在 spark 官方主推 structed streaming, spark streaming 维护的也不积极了, 我们基于 spark 来构建大数据计算任务,重心也要...

2509 0
|
消息中间件 分布式计算 Kafka
|

[转载] Spark Structed Streaming执行过程

在Struct Streaming中增加了支持sql处理流数据,在sql包中单独处理,其中StreamExecution是下面提到两处流处理的基类,这个流查询在数据源有新数据到达时会生成一个QueryExecution来执行并将结果输出到指定的Sink(处理后数据存放地)中。

2478 0
|
存储 分布式计算 流计算
|

[转载] Spark Streaming 设计原理

最近两年流式计算又开始逐渐火了起来,说到流式计算主要分两种:continuous-based 和 micro-batch。最近在使用基于 micro-batch 模式的 Spark Streaming,正好结合论文介绍一下。

2177 0

SparkSQL实践与优化

SQL实践:1.多数据源支持 2.多数据类型支持 3.多组件对接

2177 0
|
SQL
|

SparkSQL Catalyst解析

Catalyst Optimizer是SparkSQL的核心组件(查询优化器),它负责将SQL语句转换成物理执行计划,Catalyst的优劣决定了SQL执行的性能。

4681 0
|
SQL 分布式计算 Apache
|

Apache Spark 系列技术直播 - Spark SQL 实践与优化

Apache Spark 系列技术直播 Spark SQL 实践与优化 内容简介: SparkSQL介绍 基本原理 支持的DataSource介绍 Hue/Zepplin/Livy周边跟SparkSQL的集成使用等 SparkSQL优化 SparkSQL Catalyst优化 AE优化 Shuffle优化 直播时间: 2018.

3308 0
|
SQL 分布式计算 测试技术
|

扩展Spark Catalyst,打造自定义的Spark SQL引擎

在Spark2.2版本中,引入了新的扩展点,使得用户可以在Spark session中自定义自己的parser,analyzer,optimizer以及physical planning stragegy rule。

4147 0
|
SQL Scala Python
|

[译]介绍Spark2.4的用于处理复杂数据类型的新内置函数与高阶函数

Apache Spark2.4引入了29个新的内置函数用于处理复杂数据类型(比如,数组类型等),新的内置函数也包括高阶函数。 在Spark2.4版本之前,有两种典型的方式处理复杂数据类型: 1. 将嵌套结构的数据转化为多行数据,然后使用函数处理,最后在组装成嵌套结构。

1822 0
|
机器学习/深度学习 人工智能 分布式计算
|

开源大数据周刊-第107期

1月14日,英特尔人工智能大会(AIDC 2018)在北京国贸酒店举行。这是英特尔第三次在中国举行人工智能大会,也是第一次专门面向开发者和技术社区。大会上,英特尔发布了Neural Compute Stick 2(神经计算棒二代),英特尔还展示了如何以底层计算能力赋能百度、腾讯、阿里、微软等合作伙伴,共同推进AI与物联网发展。

2255 0
|
SQL 分布式计算 Java
|

使用ApacheDS对Presto用户进行认证

Presto可以对接LDAP,实现用户密码认证。只需要Coordinator节点对接LDAP即可。主要步骤如下: 1.配置ApacheDS,启用LDAPS 2. 在ApacheDS中创建用户信息 3. 配置Presto Coordinator,重启生效 4. 验证配置

4312 0
|
SQL 分布式计算 大数据
|

初学Spark

介绍大数据处理引擎Spark的特点,以及它的技术栈

2135 0
|
Java 数据库连接
|

HiveServer2集成LDAP做用户认证

HiveServer2支持多种认证方式,通过`hive.server2.authentication`参数来设置,包括`nosasl, none, ldap, kerberos, pam, custom` 本文介绍如何在E-MapReduce中使用LDAP配置HiveServer的认证。

6405 0
|
机器学习/深度学习 分布式计算 算法
|

开源大数据周刊-第106期

Apache Kylin社区于日前宣布:Apache Kylin v2.5.1 正式发布!Apache Kylin 是一个开源的分布式分析引擎,提供 Hadoop 之上的 SQL 查询接口及多维分析(OLAP)能力,支持对超大规模数据进行亚秒级查询。

1727 0
|
分布式计算 Spark
|

欢迎加入Spark中国社区

欢迎大家关注Spark中国社区! 社区成员会定期把Spark(全球)社区的最新发布、文档等翻译后放到社区,并经常组织社区成员线上、线下的直播分享、meetup以及有奖比赛等活动,非常欢迎大家加入社区,对于发帖、提问、答疑的同学,社区会给予特色的奖励 Spark社群钉钉群

8842 1
|
机器学习/深度学习 人工智能 自然语言处理
|

开源大数据周刊-第105期

资讯 340亿美元收购红帽,IBM在拥挤的云市场另辟蹊径 Hadoop真的要死了吗?程序员的革命or灾难:机器人在GitHub修复bug、与人不相上下 基于TensorFlow Serving的深度学习在线预估 如期而至!谷歌开源 BERT 模型源代码 4年数据涨万倍,Uber大数据平台四...

1466 0
|
机器学习/深度学习 分布式计算 大数据
|

开源大数据周刊-第104期

资讯 谷歌、亚马逊、阿里纷纷入局,边缘计算的潜力如何? 从智能手机到可穿戴设备,从医疗到汽车以及工业制造,边缘计算正在上演一个又一个行业传奇,它的落脚点是要让终端成为更智慧的存在——能够实时处理数据、能够低延时做出反馈——这不就是我们期待中的智能设备吗? 如此多的深度学习框架,为什么我选择PyTorch? 不久前,Facebook 在首届 PyTorch 开发者大会发布了 PyTorch1.0 预览版,标志着这一框架更为稳定可用。

1503 0
|
机器学习/深度学习 数据可视化 大数据
|

开源大数据周刊-第103期

Google宣布在2016年发布的数据可视化工具Data Studio,以及2017年发布的的数据预先处理服务Cloud Dataprep,现在都正式可用。

1664 0
|
存储 分布式计算 大数据
|

开源大数据周刊-第102期

1578 0
|
新零售 Web App开发 人工智能
|

开源大数据周刊-第101期

1354 0
|
机器学习/深度学习 SQL 分布式计算
|

开源大数据周刊-第100期

2042 0
|
SQL 调度 分布式计算
|

SparkSQL自适应执行

阿里云EMR-3.13.0版本的SparkSQL支持自适应执行功能,用来解决Reduce个数的动态调整/数据倾斜/执行计划的动态优化问题。

9207 0
|
机器学习/深度学习 SQL 监控
|

开源大数据周刊-第99期

资讯 谷歌重磅开源强化学习框架Dopamine谷歌推出了一款全新的开源强化学习框架 Dopamine,该框架基于 TensorFlow,主打灵活性、稳定性、复现性,能够提供快速的基准测试。 整合AI和数据科学新利器:基于Apache Spark的Hydrogen项目以往数据集的准备以及模型的训练工作是分开的,这两部分工作相当于存在两套系统中。

1730 0
|
人工智能 算法 大数据
|

开源大数据周刊-第98期

产品资讯 E-MapReduce 发布新版工作流调度还在困惑怎么管理Hadoop,Hive,Spark等作业和项目,怎么灵活可靠的调度吗?从EMR工作流开始吧 E-MapReduce 发布弹性伸缩当你需要按照时间段弹性的添加计算节点,补充计算能力的时候,弹性伸缩利用云上的弹性来灵活扩展你的计算力 资讯 华尔街看涨大数据广告市场 品友等AI营销技术公司或受资本追捧据媒体报道,在纳斯达克挂牌上市的广告科技公司The Trade Desk10日股价大涨逾37%至127.93美元,成为当日美股市场涨幅最高的股票。

1614 0
|
机器学习/深度学习 人工智能 大数据
|

开源大数据周刊-第97期

本期周刊带来了开源社区重要的产品更新,包括Flink和Alluxio等,还有互联网一线公司以及传统银行业的最新大数据应用实践。

6829 0
|
人工智能 大数据 TensorFlow
|

开源大数据周刊-2018年08月10日 第96期

开源大数据周刊-2018年08月10日 第96期

2035 0
|
缓存 固态存储 大数据
|

一种堆外内存缓存策略加速数据写OSS

1985 0
|
存储 消息中间件 大数据
|

E-MapReduce上如何采集Kafka客户端Metrics

我们知道Kafka提供一套非常完善的Metrics数据,覆盖Broker,Consumer,Producer,Stream以及Connect。E-MapReduce通过Ganglia收集了Kafka Broker metrics信息,可以很好地监控Broker运行状态。

6650 0
|
人工智能 分布式计算 大数据
|

开源大数据周刊-2018年08月03日 第95期

开源大数据周刊-2018年08月03日 第95期

1818 0
|
机器学习/深度学习 监控 安全
|

开源大数据周刊-2018年07月27日 第94期

2263 0
|
机器学习/深度学习 存储 监控
|

开源大数据周刊-2018年07月13日 第93期

开源大数据周刊-2018年07月13日 第93期

1803 0
|
SQL 分布式计算 大数据
|

开源大数据周刊-第91期

资讯 大数据,让国防交通民用运力装上智慧大脑战争年代,人民群众推着小推车踊跃支前。如今,在大数据支持下,国防交通民用运力动员会发生怎样的变化? AI玩虐人工!“Magic”世界杯集锦“炫”出新高度2017年12月26日,新华社向全球发布了中国第一个媒体人工智能平台——媒体大脑1.0,引起海内外广泛关注。

3877 0
|
Web App开发 SQL 监控
|

开源大数据周刊-第90期

9715 0
|
SQL NoSQL Java
|

在 EMR 中使用 Mongo-Hadoop

2714 0
|
SQL 分布式计算 Java
|

在 EMR 中使用 ES-Hadoop

4110 0
|
人工智能 算法 物联网
|

开源大数据周刊-第89期

资讯 Databricks开源机器学习平台MLFlow本文主要介绍Databricks开源机器学习平台MLFlow基础。 全民讨伐 Google AI “作恶”项目内部员工的严重抗议,终于让谷歌在 AI 武器化的道路上悬崖勒马了。

2884 0
|
分布式计算 druid Shell
|

EMR Druid 探索(二)

EMR Druid 探索(二) EMR Druid 上文介绍了 Druid 的特点、使用场景以及性能。EMR 在 3.11.0 引入了 Druid,并专门推出了一种新的集群类型:Druid 集群。在具体使用时,Druid 集群可以与 Hadoop 集群结合,以 HDFS 集群作为 deep storage 的存储,以 YARN 作为批量索引的计算引擎。

2783 0
|
机器学习/深度学习 负载均衡 算法
|

开源大数据周刊-第87期

1581 0
我要发布