【Spark Summit East 2017】R与Spark:如何使用RStudio的 Sparklyr和H2O的 Rsparkling分析数据

简介: 本讲义出自Nathan Stephens在Spark Summit East 2017上的演讲,Sparklyr是一个让你在Spark中进行数据分析就像在R开发环境下进行数据分析的R语言包,Sparklyr 支持处理数据帧对象的常用工具dplyr的完整后端,你可以使用dplyr将R代码翻译成Spark SQL,Sparklyr还支持MLlib,所以你可以在分布式数据集上运行分类器以及回归、聚类、决策树等机器学习算法,讲义中演示了如何使用Sparklyr和Rsparkling分析数据。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps


本讲义出自Nathan Stephens在Spark Summit East 2017上的演讲,Sparklyr是一个让你在Spark中进行数据分析就像在R开发环境下进行数据分析的R语言包,Sparklyr 支持处理数据帧对象的常用工具dplyr的完整后端,你可以使用dplyr将R代码翻译成Spark SQL,Sparklyr还支持MLlib,所以你可以在分布式数据集上运行分类器以及回归、聚类、决策树等机器学习算法,讲义中演示了如何使用Sparklyr和Rsparkling分析数据。


5a38a80e9582d2ed243bc7d96f5f3b27daab60bd

a4d31555f86d19b0951f7d33b80546e8362643ad

6e696e1206c577aaab6994c634f0be1a32b58e5e

e296a364c19fb833341b12b2ad0551f07b21a6f6

04267ba58ab9f9526eca8de65147f72c279e75e7

de160af590d3625326373365884aa28d0457f635

ad3b45500ae86f24698bfc91effce9adb6330225

bee2c0e83a313ac0e062882892d292487c9442be

179bd359b9369a6df761bbfb8ccec92fbd41b909

9088263dee1650c4b3315798754c74817c871dee

354a78b631b5b3798da9c4269b6632199e8552f6

e584128ac595f856a227653b702816827066840a

1af6870f291b4c68c8d994d1dacde20003829633

a014bd626e836b56ccb5de858cfdcf07bddacb9c

8e2d871a839f90c4e820de5e0e9e34681da49c4f

296c4a629711cf0d7d453b777e534a7b02d71063

75e27850e270de0877b00388aaf958350b785a9e

相关文章
|
2月前
|
分布式计算 关系型数据库 MySQL
大数据-88 Spark 集群 案例学习 Spark Scala 案例 SuperWordCount 计算结果数据写入MySQL
大数据-88 Spark 集群 案例学习 Spark Scala 案例 SuperWordCount 计算结果数据写入MySQL
56 3
|
2月前
|
SQL 分布式计算 Serverless
EMR Serverless Spark:一站式全托管湖仓分析利器
本文根据2024云栖大会阿里云 EMR 团队负责人李钰(绝顶) 演讲实录整理而成
185 2
|
2月前
|
设计模式 数据采集 分布式计算
企业spark案例 —出租车轨迹分析
企业spark案例 —出租车轨迹分析
112 0
|
4月前
|
存储 分布式计算 Java
|
4月前
|
分布式计算 监控 大数据
如何处理 Spark 中的倾斜数据?
【8月更文挑战第13天】
262 4
|
4月前
|
分布式计算 Apache 数据安全/隐私保护
流计算引擎数据问题之在 Spark Structured Streaming 中水印计算和使用如何解决
流计算引擎数据问题之在 Spark Structured Streaming 中水印计算和使用如何解决
62 1
|
存储 分布式计算 Spark
Spark会把数据都载入到内存么?
这篇文章算是个科普贴。如果已经熟悉Spark的就略过吧。
1896 0
|
存储 分布式计算 Spark
Spark会把数据都载入到内存么?
前言         很多初学者其实对Spark的编程模式还是RDD这个概念理解不到位,就会产生一些误解。   比如,很多时候我们常常以为一个文件是会被完整读入到内存,然后做各种变换,这很可能是受两个概念的误导:   RDD的定义,RDD是一个分布式的不可变数据集合   Spark 是一个内
2455 0
|
1月前
|
分布式计算 大数据 Apache
ClickHouse与大数据生态集成:Spark & Flink 实战
【10月更文挑战第26天】在当今这个数据爆炸的时代,能够高效地处理和分析海量数据成为了企业和组织提升竞争力的关键。作为一款高性能的列式数据库系统,ClickHouse 在大数据分析领域展现出了卓越的能力。然而,为了充分利用ClickHouse的优势,将其与现有的大数据处理框架(如Apache Spark和Apache Flink)进行集成变得尤为重要。本文将从我个人的角度出发,探讨如何通过这些技术的结合,实现对大规模数据的实时处理和分析。
143 2
ClickHouse与大数据生态集成:Spark & Flink 实战
|
2月前
|
存储 分布式计算 算法
大数据-106 Spark Graph X 计算学习 案例:1图的基本计算、2连通图算法、3寻找相同的用户
大数据-106 Spark Graph X 计算学习 案例:1图的基本计算、2连通图算法、3寻找相同的用户
74 0