开源大数据平台 E-MapReduce-博文-第14页-阿里云开发者社区-阿里云

开发者社区> 大数据与机器学习> 开源大数据平台 E-MapReduce

阿里云EMR是云原生开源大数据平台，为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎，计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。

今日

1647

内容

活动

5430

关注

来自：大数据与机器学习

活动

开源大数据EMR

消息中间件分布式计算 Kafka

博文

[转载] Spark Structed Streaming执行过程

在Struct Streaming中增加了支持sql处理流数据，在sql包中单独处理，其中StreamExecution是下面提到两处流处理的基类，这个流查询在数据源有新数据到达时会生成一个QueryExecution来执行并将结果输出到指定的Sink（处理后数据存放地）中。

2690 0 0

开源大数据EMR

存储分布式计算流计算

博文

[转载] Spark Streaming 设计原理

最近两年流式计算又开始逐渐火了起来，说到流式计算主要分两种：continuous-based 和 micro-batch。最近在使用基于 micro-batch 模式的 Spark Streaming，正好结合论文介绍一下。

2472 0 0

社区小助手

博文

SparkSQL实践与优化

SQL实践：1.多数据源支持 2.多数据类型支持 3.多组件对接

2320 0 0

寒沙牧

SQL

博文

SparkSQL Catalyst解析

Catalyst Optimizer是SparkSQL的核心组件(查询优化器)，它负责将SQL语句转换成物理执行计划，Catalyst的优劣决定了SQL执行的性能。

5269 0 0

开源大数据EMR

SQL 分布式计算 Apache

博文

Apache Spark 系列技术直播 - Spark SQL 实践与优化

Apache Spark 系列技术直播 Spark SQL 实践与优化内容简介： SparkSQL介绍基本原理支持的DataSource介绍 Hue/Zepplin/Livy周边跟SparkSQL的集成使用等 SparkSQL优化 SparkSQL Catalyst优化 AE优化 Shuffle优化直播时间： 2018.

3596 0 0

李呈祥

SQL 分布式计算测试技术

博文

扩展Spark Catalyst，打造自定义的Spark SQL引擎

在Spark2.2版本中，引入了新的扩展点，使得用户可以在Spark session中自定义自己的parser，analyzer，optimizer以及physical planning stragegy rule。

4972 0 0

李呈祥

SQL Scala Python

博文

[译]介绍Spark2.4的用于处理复杂数据类型的新内置函数与高阶函数

Apache Spark2.4引入了29个新的内置函数用于处理复杂数据类型（比如，数组类型等），新的内置函数也包括高阶函数。在Spark2.4版本之前，有两种典型的方式处理复杂数据类型： 1. 将嵌套结构的数据转化为多行数据，然后使用函数处理，最后在组装成嵌套结构。

2070 0 1

开源大数据EMR

机器学习/深度学习人工智能分布式计算

博文

开源大数据周刊-第107期

1月14日，英特尔人工智能大会（AIDC 2018）在北京国贸酒店举行。这是英特尔第三次在中国举行人工智能大会，也是第一次专门面向开发者和技术社区。大会上，英特尔发布了Neural Compute Stick 2（神经计算棒二代），英特尔还展示了如何以底层计算能力赋能百度、腾讯、阿里、微软等合作伙伴，共同推进AI与物联网发展。

2496 0 0

知瑕

SQL 分布式计算 Java

博文

使用ApacheDS对Presto用户进行认证

Presto可以对接LDAP，实现用户密码认证。只需要Coordinator节点对接LDAP即可。主要步骤如下： 1.配置ApacheDS，启用LDAPS 2. 在ApacheDS中创建用户信息 3. 配置Presto Coordinator，重启生效 4. 验证配置

4668 0 0

寒沙牧

SQL 分布式计算大数据

博文

初学Spark

介绍大数据处理引擎Spark的特点，以及它的技术栈

2429 0 0

寒沙牧

Java 数据库连接

博文

HiveServer2集成LDAP做用户认证

HiveServer2支持多种认证方式，通过`hive.server2.authentication`参数来设置，包括`nosasl, none, ldap, kerberos, pam, custom` 本文介绍如何在E-MapReduce中使用LDAP配置HiveServer的认证。

6872 0 0

开源大数据EMR

机器学习/深度学习分布式计算算法

博文

开源大数据周刊-第106期

Apache Kylin社区于日前宣布：Apache Kylin v2.5.1 正式发布！Apache Kylin 是一个开源的分布式分析引擎，提供 Hadoop 之上的 SQL 查询接口及多维分析（OLAP）能力，支持对超大规模数据进行亚秒级查询。

1910 0 0

黯灭_邓彬

SQL 分布式计算 Spark

博文

Spark DataFrame 的 groupBy vs groupByKey

4909 0 1

黯灭_邓彬

分布式计算 Spark

博文

欢迎加入Spark中国社区

欢迎大家关注Spark中国社区！社区成员会定期把Spark（全球）社区的最新发布、文档等翻译后放到社区，并经常组织社区成员线上、线下的直播分享、meetup以及有奖比赛等活动，非常欢迎大家加入社区，对于发帖、提问、答疑的同学，社区会给予特色的奖励 Spark社群钉钉群

10057 1 2

开源大数据EMR

机器学习/深度学习人工智能自然语言处理

博文

开源大数据周刊-第105期

资讯 340亿美元收购红帽，IBM在拥挤的云市场另辟蹊径 Hadoop真的要死了吗？程序员的革命or灾难：机器人在GitHub修复bug、与人不相上下基于TensorFlow Serving的深度学习在线预估如期而至！谷歌开源 BERT 模型源代码 4年数据涨万倍，Uber大数据平台四...

1640 0 0

开源大数据EMR

机器学习/深度学习分布式计算大数据

博文

资讯谷歌、亚马逊、阿里纷纷入局，边缘计算的潜力如何？从智能手机到可穿戴设备，从医疗到汽车以及工业制造，边缘计算正在上演一个又一个行业传奇，它的落脚点是要让终端成为更智慧的存在——能够实时处理数据、能够低延时做出反馈——这不就是我们期待中的智能设备吗？如此多的深度学习框架，为什么我选择PyTorch？不久前，Facebook 在首届 PyTorch 开发者大会发布了 PyTorch1.0 预览版，标志着这一框架更为稳定可用。

1676 0 0

开源大数据EMR

机器学习/深度学习数据可视化大数据

博文

开源大数据周刊-第103期

Google宣布在2016年发布的数据可视化工具Data Studio，以及2017年发布的的数据预先处理服务Cloud Dataprep，现在都正式可用。

1872 0 0

开源大数据EMR

存储分布式计算大数据

博文

开源大数据周刊-第102期

1779 0 0

开源大数据EMR

新零售 Web App开发人工智能

博文

开源大数据周刊-第101期

1512 0 0

开源大数据EMR

机器学习/深度学习 SQL 分布式计算

博文

开源大数据周刊-第100期

2233 0 0

寒沙牧

SQL 调度分布式计算

博文

SparkSQL自适应执行

阿里云EMR-3.13.0版本的SparkSQL支持自适应执行功能，用来解决Reduce个数的动态调整/数据倾斜/执行计划的动态优化问题。

9824 0 1

开源大数据EMR

机器学习/深度学习 SQL 监控

博文

开源大数据周刊-第99期

资讯谷歌重磅开源强化学习框架Dopamine谷歌推出了一款全新的开源强化学习框架 Dopamine，该框架基于 TensorFlow，主打灵活性、稳定性、复现性，能够提供快速的基准测试。整合AI和数据科学新利器：基于Apache Spark的Hydrogen项目以往数据集的准备以及模型的训练工作是分开的，这两部分工作相当于存在两套系统中。

1866 0 0

开源大数据EMR

人工智能算法大数据

博文

开源大数据周刊-第98期

产品资讯 E-MapReduce 发布新版工作流调度还在困惑怎么管理Hadoop，Hive，Spark等作业和项目，怎么灵活可靠的调度吗？从EMR工作流开始吧 E-MapReduce 发布弹性伸缩当你需要按照时间段弹性的添加计算节点，补充计算能力的时候，弹性伸缩利用云上的弹性来灵活扩展你的计算力资讯华尔街看涨大数据广告市场品友等AI营销技术公司或受资本追捧据媒体报道，在纳斯达克挂牌上市的广告科技公司The Trade Desk10日股价大涨逾37%至127.93美元，成为当日美股市场涨幅最高的股票。

1760 0 0

开源大数据EMR

机器学习/深度学习大数据 Apache

博文

开源大数据周刊-第97期

本期周刊带来了开源社区重要的产品更新，包括Flink和Alluxio等，还有互联网一线公司以及传统银行业的最新大数据应用实践。

7081 0 0

开源大数据EMR

人工智能大数据 TensorFlow

博文

开源大数据周刊-2018年08月10日第96期

2216 0 0

鱼跟猫

缓存固态存储大数据

博文

一种堆外内存缓存策略加速数据写OSS

2204 0 0

鱼跟猫

存储消息中间件大数据

博文

E-MapReduce上如何采集Kafka客户端Metrics

我们知道Kafka提供一套非常完善的Metrics数据，覆盖Broker，Consumer，Producer，Stream以及Connect。E-MapReduce通过Ganglia收集了Kafka Broker metrics信息，可以很好地监控Broker运行状态。

6888 0 0

开源大数据EMR

人工智能分布式计算大数据

博文

开源大数据周刊-2018年08月03日第95期

1986 0 0

阿里云E-MapReduce团队

机器学习/深度学习监控安全

博文

开源大数据周刊-2018年07月27日第94期

2424 0 0

阿里云E-MapReduce团队

机器学习/深度学习存储监控

博文

开源大数据周刊-2018年07月13日第93期

1997 0 0

开源大数据EMR

SQL 分布式计算大数据

博文

开源大数据周刊-第91期

资讯大数据，让国防交通民用运力装上智慧大脑战争年代，人民群众推着小推车踊跃支前。如今，在大数据支持下，国防交通民用运力动员会发生怎样的变化？ AI玩虐人工！“Magic”世界杯集锦“炫”出新高度2017年12月26日，新华社向全球发布了中国第一个媒体人工智能平台——媒体大脑1.0，引起海内外广泛关注。

4075 0 0

开源大数据EMR

Web App开发 SQL 监控

博文

开源大数据周刊-第90期

10049 0 1

xy_xind

SQL NoSQL Java

博文

在 EMR 中使用 Mongo-Hadoop

2927 0 1

xy_xind

SQL 分布式计算 Java

博文

在 EMR 中使用 ES-Hadoop

4375 0 0

开源大数据EMR

人工智能算法物联网

博文

开源大数据周刊-第89期

资讯 Databricks开源机器学习平台MLFlow本文主要介绍Databricks开源机器学习平台MLFlow基础。全民讨伐 Google AI “作恶”项目内部员工的严重抗议，终于让谷歌在 AI 武器化的道路上悬崖勒马了。

3086 0 0

xy_xind

分布式计算 druid 对象存储

博文

EMR Druid 探索（二）

EMR Druid 探索（二） EMR Druid 上文介绍了 Druid 的特点、使用场景以及性能。EMR 在 3.11.0 引入了 Druid，并专门推出了一种新的集群类型：Druid 集群。在具体使用时，Druid 集群可以与 Hadoop 集群结合，以 HDFS 集群作为 deep storage 的存储，以 YARN 作为批量索引的计算引擎。

3017 0 0

开源大数据EMR

SQL 监控安全

博文