【Spark Summit East 2017】R与Spark:如何使用RStudio的 Sparklyr和H2O的 Rsparkling分析数据

简介: 本讲义出自Nathan Stephens在Spark Summit East 2017上的演讲,Sparklyr是一个让你在Spark中进行数据分析就像在R开发环境下进行数据分析的R语言包,Sparklyr 支持处理数据帧对象的常用工具dplyr的完整后端,你可以使用dplyr将R代码翻译成Spark SQL,Sparklyr还支持MLlib,所以你可以在分布式数据集上运行分类器以及回归、聚类、决策树等机器学习算法,讲义中演示了如何使用Sparklyr和Rsparkling分析数据。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps


本讲义出自Nathan Stephens在Spark Summit East 2017上的演讲,Sparklyr是一个让你在Spark中进行数据分析就像在R开发环境下进行数据分析的R语言包,Sparklyr 支持处理数据帧对象的常用工具dplyr的完整后端,你可以使用dplyr将R代码翻译成Spark SQL,Sparklyr还支持MLlib,所以你可以在分布式数据集上运行分类器以及回归、聚类、决策树等机器学习算法,讲义中演示了如何使用Sparklyr和Rsparkling分析数据。


5a38a80e9582d2ed243bc7d96f5f3b27daab60bd

a4d31555f86d19b0951f7d33b80546e8362643ad

6e696e1206c577aaab6994c634f0be1a32b58e5e

e296a364c19fb833341b12b2ad0551f07b21a6f6

04267ba58ab9f9526eca8de65147f72c279e75e7

de160af590d3625326373365884aa28d0457f635

ad3b45500ae86f24698bfc91effce9adb6330225

bee2c0e83a313ac0e062882892d292487c9442be

179bd359b9369a6df761bbfb8ccec92fbd41b909

9088263dee1650c4b3315798754c74817c871dee

354a78b631b5b3798da9c4269b6632199e8552f6

e584128ac595f856a227653b702816827066840a

1af6870f291b4c68c8d994d1dacde20003829633

a014bd626e836b56ccb5de858cfdcf07bddacb9c

8e2d871a839f90c4e820de5e0e9e34681da49c4f

296c4a629711cf0d7d453b777e534a7b02d71063

75e27850e270de0877b00388aaf958350b785a9e

相关文章
|
分布式计算 关系型数据库 MySQL
大数据-88 Spark 集群 案例学习 Spark Scala 案例 SuperWordCount 计算结果数据写入MySQL
大数据-88 Spark 集群 案例学习 Spark Scala 案例 SuperWordCount 计算结果数据写入MySQL
155 3
|
SQL 分布式计算 Serverless
EMR Serverless Spark:一站式全托管湖仓分析利器
本文根据2024云栖大会阿里云 EMR 团队负责人李钰(绝顶) 演讲实录整理而成
752 58
|
10月前
|
SQL 分布式计算 Serverless
基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用
基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用
260 0
|
设计模式 数据采集 分布式计算
企业spark案例 —出租车轨迹分析
企业spark案例 —出租车轨迹分析
499 0
|
存储 分布式计算 Java
|
分布式计算 监控 大数据
如何处理 Spark 中的倾斜数据?
【8月更文挑战第13天】
737 4
|
分布式计算 Apache 数据安全/隐私保护
流计算引擎数据问题之在 Spark Structured Streaming 中水印计算和使用如何解决
流计算引擎数据问题之在 Spark Structured Streaming 中水印计算和使用如何解决
207 1
|
人工智能 分布式计算 Spark
SPARK + AI SUMMIT 2020 中文精华版线上峰会材料
SPARK + AI SUMMIT 2020 中文精华版线上峰会材料
SPARK + AI SUMMIT 2020 中文精华版线上峰会材料
|
机器学习/深度学习 人工智能 分布式计算
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题介绍
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题
|
分布式计算 Prometheus Kubernetes
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月4日上午议题
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月4日上午议题发布
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月4日上午议题