【Spark Summit East 2017】在生产环境中的大规模数据应用中使用SparkR

简介: 本讲义出自Heiko Korndorf在Spark Summit East 2017上的演讲,R语言是一个广受平台数据科学家欢迎的应用于许多不同的领域的模型分析创建的语言,但是当这些应用程序从科学实验室迁移到大型企业的生产环境就出现了一系列新的挑战,而独立于R的Spark则是非常强大的通用计算平台,通过引入SparkR使得在生产环境下使用数据科学应用成为了可能,本次演讲将会分享两个将数据科学应用引入真实生产环境的案例。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps


本讲义出自Heiko Korndorf在Spark Summit East 2017上的演讲,R语言是一个广受平台数据科学家欢迎的应用于许多不同的领域的模型分析创建的语言,但是当这些应用程序从科学实验室迁移到大型企业的生产环境就出现了一系列新的挑战,而独立于R的Spark则是非常强大的通用计算平台,通过引入SparkR使得在生产环境下使用数据科学应用成为了可能,本次演讲将会分享两个将数据科学应用引入真实生产环境的案例。


30097218ad785274173312c75d96ade9ac2047af

3e6b4bde43ff050170df29e68010aedf9720e45a

25eab99ad160e9f25703e2f85fe7eb65c74f68c9

491961c6d49cabcbec6ccf808897e77b64a7dcd1

27487a63dc7330c657dab6a221bd685d1356d1fc

cf8a753ce7c45749d27bcda7a6499a4c56381357

13b9e99aa53f94869cb72ce4ee26f1b99db5a33c

614c7b7d028e0d079a8a2137ecc22b862cddeb31

b9b3f246463585cf0820924c2e73dcd195553cb4

07889f3151184c08c9d033d6f1b590377df81fa4

18dd87edf78bc4600504a50e7f9616896083b247

f093d4b8353600a4b1af17c69e7f1d561221d197

402d658bc0596343d7c2cc6608989896169e3c39

69f4ce97eb8cfa1f3d62f1265d48f2ca9d188ecb

2229a6d715765f74ae9dd5faed057ac3f5b0029d

fb882d421140ed73fd1532d16a364adc14e8f349

9c377d1c35aa4550449faaedf2db302a804fd000

a28b39deb7331655414009ea2743f44b9b274a5e

7481844022b9c72d0f0f890f6d7a42e419c69b1e

28f3cdb323e372617b7b9865a614c525dc543cfc

e04bc6c2297e98e95897d0e93cf9570665d7bd7a

6a1a7879b8d63182488312d95d4b7ddb81113221

06dd34e2426c9b400228ef68f2e9bb364bcda31e

24a08180e658b3cca2671ce9e8d71172a8b3ae2f

5fd809e0412660da5b872d288bf89db2f4ef1b33

相关文章
|
5月前
|
分布式计算 大数据 数据处理
Apache Spark:提升大规模数据处理效率的秘籍
【4月更文挑战第7天】本文介绍了Apache Spark的大数据处理优势和核心特性,包括内存计算、RDD、一站式解决方案。分享了Spark实战技巧,如选择部署模式、优化作业执行流程、管理内存与磁盘、Spark SQL优化及监控调优工具的使用。通过这些秘籍,可以提升大规模数据处理效率,发挥Spark在实际项目中的潜力。
301 0
|
3月前
|
弹性计算 分布式计算 Serverless
全托管一站式大规模数据处理和分析Serverless平台 | EMR Serverless Spark 评测
【7月更文挑战第6天】全托管一站式大规模数据处理和分析Serverless平台 | EMR Serverless Spark 评测
23694 42
|
5月前
|
机器学习/深度学习 分布式计算 数据处理
Spark是一个基于内存的通用数据处理引擎,可以进行大规模数据处理和分析
【5月更文挑战第2天】Spark是一个基于内存的通用数据处理引擎,可以进行大规模数据处理和分析
105 3
|
机器学习/深度学习 分布式计算 Apache
《基于Apache Spark 的大规模分布式机器学习实践》电子版地址
基于Apache* Spark* 的大规模分布式机器学习实践
116 0
《基于Apache Spark 的大规模分布式机器学习实践》电子版地址
|
机器学习/深度学习 分布式计算 Spark
|
人工智能 分布式计算 Spark
SPARK + AI SUMMIT 2020 中文精华版线上峰会材料
SPARK + AI SUMMIT 2020 中文精华版线上峰会材料
SPARK + AI SUMMIT 2020 中文精华版线上峰会材料
|
机器学习/深度学习 人工智能 分布式计算
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题介绍
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题
|
1天前
|
存储 分布式计算 算法
大数据-106 Spark Graph X 计算学习 案例:1图的基本计算、2连通图算法、3寻找相同的用户
大数据-106 Spark Graph X 计算学习 案例:1图的基本计算、2连通图算法、3寻找相同的用户
10 0
|
1天前
|
存储 分布式计算 算法
大数据-105 Spark GraphX 基本概述 与 架构基础 概念详解 核心数据结构
大数据-105 Spark GraphX 基本概述 与 架构基础 概念详解 核心数据结构
9 0