开源大数据平台 E-MapReduce的搜索结果_热门

社区小助手

|

博文

|

来自：大数据与机器学习

# Apache Spark系列技术直播# 第四讲【机器学习介绍与Spark MLlib实践】

主讲人：江宇(燕回) 阿里巴巴计算平台EMR技术专家直播时间：2018.12.06 19:00 - 20:00 内容提要：本次讲座主要面对的是机器学习的入门者，以及想要使用Spark来进行机器学习的用户。

# 开源大数据平台 E-MapReduce # 机器学习/深度学习 # 分布式计算 # Apache # Spark

寒沙牧

|

博文

|

来自：大数据与机器学习

使用Ranger对Hive数据进行脱敏

Ranger支持对Hive数据的脱敏处理(Data Masking)，它对`select`的返回结果进行脱敏处理，对用户屏蔽敏感信息。

# 开源大数据平台 E-MapReduce # SQL # HIVE

尼不要逗了

|

博文

|

来自：大数据与机器学习

分布式快照算法: Chandy-Lamport

Spark 的 Structured Streaming 的 Continuous Processing Mode 的容错处理使用了分布式快照（Distributed Snapshot）算法 Chandy-Lamport 算法，那么分布式快照算法可以用来解决什么问题呢？

# 开源大数据平台 E-MapReduce # 分布式计算 # 算法 # 大数据 # 流计算 # Spark

开源大数据EMR

|

博文

|

来自：大数据与机器学习

Spark排序算法系列之GBTs使用方式介绍

在本篇文章中你可以学到： Spark MLLib包中的GBDT使用方式模型的通过保存、加载、预测 PipeLine ML包中的GBDT

# 开源大数据平台 E-MapReduce # 微服务引擎 # 分布式计算 # 算法 # 搜索推荐 # Spark # 机器学习/深度学习 # API # 存储 # 数据可视化 # 数据库

阿里云E-MapReduce团队

|

博文

|

来自：大数据与机器学习

浅谈 Spark 的多语言支持

Spark架构和设计上的优秀毋庸置疑，从一出道便抢了 Hadoop 的 C 位。在开源大数据的黄金十年一时风头无两，在当下人工智能时代仍然能够与时俱进，通天之处不遑多言，美中不足之处也有不少。小的方面，比如调度模型跟 MapReduce 这种计算范式过于耦合，Spark 最近引入 Barrier 调度模式就是为了支持深度学习这种新的计算类型，所幸在于对框架的改动不会伤筋动骨；有些缺陷则不然，影响全局，调整起来绝非易事。

# 开源大数据平台 E-MapReduce # 云原生大数据计算服务 MaxCompute # 机器学习/深度学习 # 分布式计算 # Java # 大数据 # Python

开源大数据EMR

|

博文

|

来自：大数据与机器学习

使用Relational Cache加速EMR Spark数据分析

Relational Cache的强大功能赋予了Spark更多的可能，通过Relational Cache，用户可以提前将任意关系型数据（Table/View/Dataset）cache到任意Spark支持的DataSource中，并支持灵活的cache数据组织方式，基于此，Relational Cache可以在诸多应用场景中帮助用户加速Spark数据分析。

# 开源大数据平台 E-MapReduce # SQL # 存储 # 分布式计算 # 数据挖掘 # 数据处理 # Spark # 对象存储 # 数据格式 # HIVE # 固态存储

阿里云E-MapReduce团队

|

博文

|

来自：大数据与机器学习

使用Spark SQL进行流式机器学习计算（上）

什么是流式机器学习，机器学习模型获取途径，系统演示

# 开源大数据平台 E-MapReduce # 云数据库 RDS MySQL 版 # 机器学习/深度学习 # SQL # 分布式计算 # 算法 # Spark # 关系型数据库 # RDS # 数据可视化 # 开发工具 # git

开源大数据EMR

|

博文

|

来自：大数据与机器学习

7月24日晚Spark社区直播：【Apache Spark 基于 Apache Arrow 的列式存储优化】

Apache Arrow 是一个基于内存的列式存储标准，旨在解决数据交换和传输过程中，序列化和反序列化带来的开销。目前，Apache Spark 社区的一些重要优化都在围绕 Apache Arrow 展开，本次分享会介绍 Apache Arrow 并分析通过 Arrow 将给 Spark 带来哪些特性。

# 开源大数据平台 E-MapReduce # 存储 # 分布式计算 # Apache # Spark

阿里云E-MapReduce团队

|

博文

|

来自：大数据与机器学习

列式存储系列（二）: Vertica

本文就 Vertica 的数据模型、存储、执行引擎以及这几个方面与 C-Store 的区别进行了简单的介绍。总的来说，Vertica 是一个纯正的列式存储数据库，为此，Vertica 设计实现了 projection 这一数据模型，并围绕该模型设计实现了一套大数据分析管理引擎。

# 开源大数据平台 E-MapReduce # 资源编排 # 存储 # SQL # 容器 # 分布式计算 # 数据库

开源大数据EMR

|

博文

|

来自：大数据与机器学习

E-MapReduce 4.0产品新特性

E-MapReduce是运行在阿里云平台上的一大数据处理的系统解决方案。在2019年10月，阿里巴巴将发布EMR4.0版本。本篇介绍EMR4.0的新特性，包括在EMR基础能力，技术栈，生态集成和数据迁移等方面的升级，EMR4.0为用户提供更高的计算性能和更低的产品价格，将技术的红利让给用户。

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

开源大数据平台 E-MapReduce