【Spark Summit East 2017】在生产环境中的大规模数据应用中使用SparkR

简介: 本讲义出自Heiko Korndorf在Spark Summit East 2017上的演讲,R语言是一个广受平台数据科学家欢迎的应用于许多不同的领域的模型分析创建的语言,但是当这些应用程序从科学实验室迁移到大型企业的生产环境就出现了一系列新的挑战,而独立于R的Spark则是非常强大的通用计算平台,通过引入SparkR使得在生产环境下使用数据科学应用成为了可能,本次演讲将会分享两个将数据科学应用引入真实生产环境的案例。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps


本讲义出自Heiko Korndorf在Spark Summit East 2017上的演讲,R语言是一个广受平台数据科学家欢迎的应用于许多不同的领域的模型分析创建的语言,但是当这些应用程序从科学实验室迁移到大型企业的生产环境就出现了一系列新的挑战,而独立于R的Spark则是非常强大的通用计算平台,通过引入SparkR使得在生产环境下使用数据科学应用成为了可能,本次演讲将会分享两个将数据科学应用引入真实生产环境的案例。


30097218ad785274173312c75d96ade9ac2047af

3e6b4bde43ff050170df29e68010aedf9720e45a

25eab99ad160e9f25703e2f85fe7eb65c74f68c9

491961c6d49cabcbec6ccf808897e77b64a7dcd1

27487a63dc7330c657dab6a221bd685d1356d1fc

cf8a753ce7c45749d27bcda7a6499a4c56381357

13b9e99aa53f94869cb72ce4ee26f1b99db5a33c

614c7b7d028e0d079a8a2137ecc22b862cddeb31

b9b3f246463585cf0820924c2e73dcd195553cb4

07889f3151184c08c9d033d6f1b590377df81fa4

18dd87edf78bc4600504a50e7f9616896083b247

f093d4b8353600a4b1af17c69e7f1d561221d197

402d658bc0596343d7c2cc6608989896169e3c39

69f4ce97eb8cfa1f3d62f1265d48f2ca9d188ecb

2229a6d715765f74ae9dd5faed057ac3f5b0029d

fb882d421140ed73fd1532d16a364adc14e8f349

9c377d1c35aa4550449faaedf2db302a804fd000

a28b39deb7331655414009ea2743f44b9b274a5e

7481844022b9c72d0f0f890f6d7a42e419c69b1e

28f3cdb323e372617b7b9865a614c525dc543cfc

e04bc6c2297e98e95897d0e93cf9570665d7bd7a

6a1a7879b8d63182488312d95d4b7ddb81113221

06dd34e2426c9b400228ef68f2e9bb364bcda31e

24a08180e658b3cca2671ce9e8d71172a8b3ae2f

5fd809e0412660da5b872d288bf89db2f4ef1b33

相关文章
|
分布式计算 关系型数据库 MySQL
大数据-88 Spark 集群 案例学习 Spark Scala 案例 SuperWordCount 计算结果数据写入MySQL
大数据-88 Spark 集群 案例学习 Spark Scala 案例 SuperWordCount 计算结果数据写入MySQL
172 3
|
存储 分布式计算 Java
|
分布式计算 监控 大数据
如何处理 Spark 中的倾斜数据?
【8月更文挑战第13天】
832 4
|
存储 缓存 分布式计算
|
SQL 存储 分布式计算
|
分布式计算 Apache 数据安全/隐私保护
流计算引擎数据问题之在 Spark Structured Streaming 中水印计算和使用如何解决
流计算引擎数据问题之在 Spark Structured Streaming 中水印计算和使用如何解决
229 1
|
分布式计算 数据处理 流计算
实时计算 Flink版产品使用问题之使用Spark ThriftServer查询同步到Hudi的数据时,如何实时查看数据变化
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
弹性计算 分布式计算 DataWorks
DataWorks产品使用合集之spark任务如何跨空间取表数据
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
141 1
|
SQL 分布式计算 HIVE
实时计算 Flink版产品使用问题之同步到Hudi的数据是否可以被Hive或Spark直接读取
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
分布式计算 定位技术 Scala
使用spark基于出租车GPS数据实现车辆数量统计以及北京每个城区的车辆位置点数分析
使用spark基于出租车GPS数据实现车辆数量统计以及北京每个城区的车辆位置点数分析
330 0