开源大数据平台 E-MapReduce-最新-第30页-阿里云开发者社区-阿里云

开发者社区> 大数据与机器学习> 开源大数据平台 E-MapReduce

阿里云EMR是云原生开源大数据平台，为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎，计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。

今日

1647

内容

活动

5430

关注

来自：大数据与机器学习

活动

shuxinxin

机器学习/深度学习存储分布式计算

博文

【译】Apache spark 2.4:内置 Image Data Source的介绍

主要介绍Apache Spark 2.4版本内置Image Data Source数据源

1940 0 0

社区小助手

分布式计算 API Apache

博文

# Apache spark系列技术直播# 第五讲【 Spark RDD编程入门】

主讲人：王道远(健身) 阿里巴巴计算平台EMR技术专家直播时间：2018.12.13（本周四）19:00 - 20:00 内容提要：本次讲座主要涵盖Spark RDD编程入门基础，包括： Spark、RDD简介 RDD API简介打包与spark-submit 性能分析与调优基础 ppt链接：https://yq.

1824 0 1

社区小助手

分布式计算 API Apache

博文

# Apache Spark系列技术直播# 第五讲【 Spark RDD编程入门】

内容提要：本次讲座主要涵盖Spark RDD编程入门基础，包括：1. Spark、RDD简介 2. RDD API简介 3. 打包与spark-submit 4. 性能分析与调优基础主讲人：王道远(健身) 阿里巴巴计算平台EMR技术专家直播时间：2018.

1649 1 1

社区小助手

机器学习/深度学习分布式计算 Apache

博文

# Apache Spark系列技术直播# 第四讲【机器学习介绍与Spark MLlib实践】

主讲人：江宇(燕回) 阿里巴巴计算平台EMR技术专家直播时间：2018.12.06 19:00 - 20:00 内容提要：本次讲座主要面对的是机器学习的入门者，以及想要使用Spark来进行机器学习的用户。

2080 0 0

社区小助手

机器学习/深度学习分布式计算 Apache

博文

#Apache Spark系列技术直播# 第四讲【机器学习介绍与Spark MLlib实践】

Apache Spark系列技术直播--第四讲机器学习介绍与Spark MLlib实践直播时间：2018.12.06 19:00 - 20:00 主讲人：江宇(燕回) 阿里巴巴计算平台EMR技术专家内容提要：本次讲座主要面对的是机器学习的入门者，以及想要使用Spark来进行机器学习的用户。

2127 0 0

开源大数据EMR

Web App开发分布式计算测试技术

博文

【译】Apache Spark 2.4 内置数据源 Apache Avro

原文链接: Apache Avro as a Built-in Data Source in Apache Spark 2.4 Apache Avro 是一种流行的数据序列化格式。它广泛使用于 Apache Spark 和 Apache Hadoop 生态中，尤其适用于基于 Kafka 的数据流场景。

3654 0 0

社区小助手

分布式计算 Spark 流计算

博文

Apache Spark 系列技术直播 - 从 Spark Streaming 到 Structured Streaming

本期分享主题：From Spark Streaming to Structured Streaming 视频地址：https://admin-yq.aliyun.com/admin/op/OssUpload PPT地址：https://yq.

1974 0 0

社区小助手

分布式计算 Apache Spark

博文

Apache Spark中国社群有奖投稿通道启动啦！

感谢对 Apache Spark 中国社区的关注和支持！如果您有意为 Apache Spark 中国社区投稿请关注如下的内容。投稿内容要求：内容要求是 Apache Spark 相关的技术内容，可以是对 Apache Spark 的分析，也可以是 Apache Spark 的实践。

1296 0 0

开源大数据EMR

SQL 分布式计算 Apache

博文

Apache Spark 系列技术直播 - Spark SQL进阶与实战

Spark SQL进阶与实战 Spark相关组件介绍 Spark及其依赖组件 Hive Metastore介绍 Spark Thrift Server介绍表与ETL Spark表基本概念 Spark建表最佳实践 Spark ETL最佳实践动态分区表示例分析 Spark SQL查询最佳实践 Sp.

3517 0 2

开源大数据EMR

SQL 分布式计算 Scala

博文

[转载] 是时候学习真正的 spark 技术了

spark sql 可以说是 spark 中的精华部分了，我感觉整体复杂度是 spark streaming 的 5 倍以上，现在 spark 官方主推 structed streaming， spark streaming 维护的也不积极了，我们基于 spark 来构建大数据计算任务，重心也要...

2860 0 1

开源大数据EMR

消息中间件分布式计算 Kafka

博文

[转载] Spark Structed Streaming执行过程

在Struct Streaming中增加了支持sql处理流数据，在sql包中单独处理，其中StreamExecution是下面提到两处流处理的基类，这个流查询在数据源有新数据到达时会生成一个QueryExecution来执行并将结果输出到指定的Sink（处理后数据存放地）中。

2704 0 0

开源大数据EMR

存储分布式计算流计算

博文

[转载] Spark Streaming 设计原理

最近两年流式计算又开始逐渐火了起来，说到流式计算主要分两种：continuous-based 和 micro-batch。最近在使用基于 micro-batch 模式的 Spark Streaming，正好结合论文介绍一下。

2488 0 0

社区小助手

博文

SparkSQL实践与优化

SQL实践：1.多数据源支持 2.多数据类型支持 3.多组件对接

2328 0 0

寒沙牧

SQL

博文

SparkSQL Catalyst解析

Catalyst Optimizer是SparkSQL的核心组件(查询优化器)，它负责将SQL语句转换成物理执行计划，Catalyst的优劣决定了SQL执行的性能。

5288 0 0

开源大数据EMR

SQL 分布式计算 Apache

博文

Apache Spark 系列技术直播 - Spark SQL 实践与优化

Apache Spark 系列技术直播 Spark SQL 实践与优化内容简介： SparkSQL介绍基本原理支持的DataSource介绍 Hue/Zepplin/Livy周边跟SparkSQL的集成使用等 SparkSQL优化 SparkSQL Catalyst优化 AE优化 Shuffle优化直播时间： 2018.

3620 0 0

李呈祥

SQL 分布式计算测试技术

博文

扩展Spark Catalyst，打造自定义的Spark SQL引擎

在Spark2.2版本中，引入了新的扩展点，使得用户可以在Spark session中自定义自己的parser，analyzer，optimizer以及physical planning stragegy rule。

4985 0 0

李呈祥

SQL Scala Python

博文

[译]介绍Spark2.4的用于处理复杂数据类型的新内置函数与高阶函数

Apache Spark2.4引入了29个新的内置函数用于处理复杂数据类型（比如，数组类型等），新的内置函数也包括高阶函数。在Spark2.4版本之前，有两种典型的方式处理复杂数据类型： 1. 将嵌套结构的数据转化为多行数据，然后使用函数处理，最后在组装成嵌套结构。

2081 0 1

开源大数据EMR

机器学习/深度学习人工智能分布式计算

博文

开源大数据周刊-第107期

1月14日，英特尔人工智能大会（AIDC 2018）在北京国贸酒店举行。这是英特尔第三次在中国举行人工智能大会，也是第一次专门面向开发者和技术社区。大会上，英特尔发布了Neural Compute Stick 2（神经计算棒二代），英特尔还展示了如何以底层计算能力赋能百度、腾讯、阿里、微软等合作伙伴，共同推进AI与物联网发展。

2504 0 0

知瑕

SQL 分布式计算 Java

博文

使用ApacheDS对Presto用户进行认证

Presto可以对接LDAP，实现用户密码认证。只需要Coordinator节点对接LDAP即可。主要步骤如下： 1.配置ApacheDS，启用LDAPS 2. 在ApacheDS中创建用户信息 3. 配置Presto Coordinator，重启生效 4. 验证配置

4682 0 0

寒沙牧

SQL 分布式计算大数据

博文

初学Spark

介绍大数据处理引擎Spark的特点，以及它的技术栈

2434 0 0

寒沙牧

Java 数据库连接

博文

HiveServer2集成LDAP做用户认证

HiveServer2支持多种认证方式，通过`hive.server2.authentication`参数来设置，包括`nosasl, none, ldap, kerberos, pam, custom` 本文介绍如何在E-MapReduce中使用LDAP配置HiveServer的认证。

6887 0 0

开源大数据EMR

机器学习/深度学习分布式计算算法

博文

开源大数据周刊-第106期

Apache Kylin社区于日前宣布：Apache Kylin v2.5.1 正式发布！Apache Kylin 是一个开源的分布式分析引擎，提供 Hadoop 之上的 SQL 查询接口及多维分析（OLAP）能力，支持对超大规模数据进行亚秒级查询。

1921 0 0

黯灭_邓彬

SQL 分布式计算 Spark

博文

Spark DataFrame 的 groupBy vs groupByKey

4925 0 1

黯灭_邓彬

分布式计算 Spark

博文

欢迎加入Spark中国社区

欢迎大家关注Spark中国社区！社区成员会定期把Spark（全球）社区的最新发布、文档等翻译后放到社区，并经常组织社区成员线上、线下的直播分享、meetup以及有奖比赛等活动，非常欢迎大家加入社区，对于发帖、提问、答疑的同学，社区会给予特色的奖励 Spark社群钉钉群

10100 1 2

开源大数据EMR

机器学习/深度学习人工智能自然语言处理

博文

开源大数据周刊-第105期

资讯 340亿美元收购红帽，IBM在拥挤的云市场另辟蹊径 Hadoop真的要死了吗？程序员的革命or灾难：机器人在GitHub修复bug、与人不相上下基于TensorFlow Serving的深度学习在线预估如期而至！谷歌开源 BERT 模型源代码 4年数据涨万倍，Uber大数据平台四...

1654 0 0

开源大数据EMR

机器学习/深度学习分布式计算大数据

博文

资讯谷歌、亚马逊、阿里纷纷入局，边缘计算的潜力如何？从智能手机到可穿戴设备，从医疗到汽车以及工业制造，边缘计算正在上演一个又一个行业传奇，它的落脚点是要让终端成为更智慧的存在——能够实时处理数据、能够低延时做出反馈——这不就是我们期待中的智能设备吗？如此多的深度学习框架，为什么我选择PyTorch？不久前，Facebook 在首届 PyTorch 开发者大会发布了 PyTorch1.0 预览版，标志着这一框架更为稳定可用。

1689 0 0

开源大数据EMR

机器学习/深度学习数据可视化大数据

博文

开源大数据周刊-第103期

Google宣布在2016年发布的数据可视化工具Data Studio，以及2017年发布的的数据预先处理服务Cloud Dataprep，现在都正式可用。

1888 0 0

开源大数据EMR

存储分布式计算大数据

博文

开源大数据周刊-第102期

1795 0 0

开源大数据EMR

新零售 Web App开发人工智能

博文

开源大数据周刊-第101期

1525 0 0

开源大数据EMR

机器学习/深度学习 SQL 分布式计算

博文

开源大数据周刊-第100期

2248 0 0

寒沙牧

SQL 调度分布式计算

博文

SparkSQL自适应执行

阿里云EMR-3.13.0版本的SparkSQL支持自适应执行功能，用来解决Reduce个数的动态调整/数据倾斜/执行计划的动态优化问题。

9844 0 1

开源大数据EMR

机器学习/深度学习 SQL 监控

博文

开源大数据周刊-第99期

资讯谷歌重磅开源强化学习框架Dopamine谷歌推出了一款全新的开源强化学习框架 Dopamine，该框架基于 TensorFlow，主打灵活性、稳定性、复现性，能够提供快速的基准测试。整合AI和数据科学新利器：基于Apache Spark的Hydrogen项目以往数据集的准备以及模型的训练工作是分开的，这两部分工作相当于存在两套系统中。

1875 0 0

开源大数据EMR

人工智能算法大数据

博文

开源大数据周刊-第98期

产品资讯 E-MapReduce 发布新版工作流调度还在困惑怎么管理Hadoop，Hive，Spark等作业和项目，怎么灵活可靠的调度吗？从EMR工作流开始吧 E-MapReduce 发布弹性伸缩当你需要按照时间段弹性的添加计算节点，补充计算能力的时候，弹性伸缩利用云上的弹性来灵活扩展你的计算力资讯华尔街看涨大数据广告市场品友等AI营销技术公司或受资本追捧据媒体报道，在纳斯达克挂牌上市的广告科技公司The Trade Desk10日股价大涨逾37%至127.93美元，成为当日美股市场涨幅最高的股票。

1765 0 0

开源大数据EMR

机器学习/深度学习大数据 Apache

博文

开源大数据周刊-第97期

本期周刊带来了开源社区重要的产品更新，包括Flink和Alluxio等，还有互联网一线公司以及传统银行业的最新大数据应用实践。

7090 0 0

开源大数据EMR

人工智能大数据 TensorFlow

博文

开源大数据周刊-2018年08月10日第96期

2226 0 0

鱼跟猫

缓存固态存储大数据

博文

一种堆外内存缓存策略加速数据写OSS

2214 0 0

鱼跟猫

存储消息中间件大数据

博文

E-MapReduce上如何采集Kafka客户端Metrics

我们知道Kafka提供一套非常完善的Metrics数据，覆盖Broker，Consumer，Producer，Stream以及Connect。E-MapReduce通过Ganglia收集了Kafka Broker metrics信息，可以很好地监控Broker运行状态。

6906 0 0

开源大数据EMR

人工智能分布式计算大数据

博文

开源大数据周刊-2018年08月03日第95期

2002 0 0

阿里云E-MapReduce团队

机器学习/深度学习监控安全

博文

开源大数据周刊-2018年07月27日第94期

2432 0 0

阿里云E-MapReduce团队

机器学习/深度学习存储监控

博文

开源大数据周刊-2018年07月13日第93期

2007 0 0

开源大数据EMR

SQL 分布式计算大数据

博文

开源大数据周刊-第91期

资讯大数据，让国防交通民用运力装上智慧大脑战争年代，人民群众推着小推车踊跃支前。如今，在大数据支持下，国防交通民用运力动员会发生怎样的变化？ AI玩虐人工！“Magic”世界杯集锦“炫”出新高度2017年12月26日，新华社向全球发布了中国第一个媒体人工智能平台——媒体大脑1.0，引起海内外广泛关注。

4083 0 0

开源大数据EMR

Web App开发 SQL 监控

博文

开源大数据周刊-第90期

10061 0 1

xy_xind

SQL NoSQL Java

博文

在 EMR 中使用 Mongo-Hadoop

2946 0 1

xy_xind

SQL 分布式计算 Java

博文

在 EMR 中使用 ES-Hadoop

4404 0 0

开源大数据EMR

人工智能算法物联网

博文

开源大数据周刊-第89期

资讯 Databricks开源机器学习平台MLFlow本文主要介绍Databricks开源机器学习平台MLFlow基础。全民讨伐 Google AI “作恶”项目内部员工的严重抗议，终于让谷歌在 AI 武器化的道路上悬崖勒马了。

3100 0 0

xy_xind

分布式计算 druid 对象存储

博文

EMR Druid 探索（二）

EMR Druid 探索（二） EMR Druid 上文介绍了 Druid 的特点、使用场景以及性能。EMR 在 3.11.0 引入了 Druid，并专门推出了一种新的集群类型：Druid 集群。在具体使用时，Druid 集群可以与 Hadoop 集群结合，以 HDFS 集群作为 deep storage 的存储，以 YARN 作为批量索引的计算引擎。

3022 0 0

开源大数据EMR

SQL 监控安全

博文

开源大数据周刊-第88期

5095 0 0

开源大数据EMR

机器学习/深度学习负载均衡算法

博文

开源大数据周刊-第87期

1818 0 0

鸿初

分布式计算资源调度 Hadoop

博文

都是default惹的祸-yarn调度（一）-fair调度器drf调度策略作业不执行问题的调查和源码分析

问题背景 yarn的fair类型资源池，是企业级hadoop用户常用的资源池类型。该资源池默认的队列调度策略是fair，即分配资源时只考虑内存限制。对一个多个团队混合使用的大集群来说，如果想要在分配资源时同时考虑内存和cpu限制，需要指定调度策略为drf。

4464 0 0

鱼跟猫

消息中间件关系型数据库 Kafka

博文

如何使用Kafka Connect实现同步RDS binlog数据

本文介绍如何在E-MapReduce上使用Kafka Connect实现同步RDS binlog数据

16769 1 3

...

你好！

登录掌握更多精彩内容

账号登录

我的内容

我的收藏

EMR 官网

EMR Serverless StarRocks 版

EMR Serverless Spark 版

更多版块

大数据计算 MaxCompute 实时数仓 Hologres 实时计算 Flink 大数据开发治理DataWorks 检索分析服务 Elasticsearch版人工智能平台PAI 智能搜索推荐大数据运维SREWorks 数据可视化DataV 向量检索服务 Milvus 版

展开全部

活跃用户

Jayf

开源大数据平台 E-MapReduce

最新

博文

用户案例

免费试用

问答

视频

电子书

学习

活动

【译】Apache spark 2.4:内置 Image Data Source的介绍

# Apache spark系列技术直播# 第五讲【 Spark RDD编程入门 】

# Apache Spark系列技术直播# 第五讲【 Spark RDD编程入门 】

# Apache Spark系列技术直播# 第四讲 【 机器学习介绍与Spark MLlib实践 】

#Apache Spark系列技术直播# 第四讲 【 机器学习介绍与Spark MLlib实践 】

【译】Apache Spark 2.4 内置数据源 Apache Avro

Apache Spark 系列技术直播 - 从 Spark Streaming 到 Structured Streaming

Apache Spark中国社群 有奖投稿通道 启动啦！

Apache Spark 系列技术直播 - Spark SQL进阶与实战

[转载] 是时候学习真正的 spark 技术了

[转载] Spark Structed Streaming执行过程

[转载] Spark Streaming 设计原理

SparkSQL实践与优化

SparkSQL Catalyst解析

Apache Spark 系列技术直播 - Spark SQL 实践与优化

扩展Spark Catalyst，打造自定义的Spark SQL引擎

[译]介绍Spark2.4的用于处理复杂数据类型的新内置函数与高阶函数

开源大数据周刊-第107期

使用ApacheDS对Presto用户进行认证

初学Spark

HiveServer2集成LDAP做用户认证

开源大数据周刊-第106期

Spark DataFrame 的 groupBy vs groupByKey

欢迎加入Spark中国社区

开源大数据周刊-第105期

开源大数据周刊-第104期

开源大数据周刊-第103期

开源大数据周刊-第102期

开源大数据周刊-第101期

开源大数据周刊-第100期

SparkSQL自适应执行

开源大数据周刊-第99期

开源大数据周刊-第98期

开源大数据周刊-第97期

开源大数据周刊-2018年08月10日 第96期

一种堆外内存缓存策略加速数据写OSS

E-MapReduce上如何采集Kafka客户端Metrics

开源大数据周刊-2018年08月03日 第95期

开源大数据周刊-2018年07月27日 第94期

开源大数据周刊-2018年07月13日 第93期

开源大数据周刊-第91期

开源大数据周刊-第90期

在 EMR 中使用 Mongo-Hadoop

在 EMR 中使用 ES-Hadoop

开源大数据周刊-第89期

EMR Druid 探索（二）

开源大数据周刊-第88期

开源大数据周刊-第87期

都是default惹的祸-yarn调度（一）-fair调度器drf调度策略作业不执行问题的调查和源码分析

如何使用Kafka Connect实现同步RDS binlog数据

活跃用户

相关产品

# Apache spark系列技术直播# 第五讲【 Spark RDD编程入门】

# Apache Spark系列技术直播# 第五讲【 Spark RDD编程入门】

# Apache Spark系列技术直播# 第四讲【机器学习介绍与Spark MLlib实践】

#Apache Spark系列技术直播# 第四讲【机器学习介绍与Spark MLlib实践】

Apache Spark中国社群有奖投稿通道启动啦！

开源大数据周刊-2018年08月10日第96期

开源大数据周刊-2018年08月03日第95期

开源大数据周刊-2018年07月27日第94期

开源大数据周刊-2018年07月13日第93期