【Spark Summit East 2017】基于SparkR的可伸缩数据科学

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 本讲义出自Felix Cheung在Spark Summit East 2017上的演讲,R是一个非常受欢迎的科学数据平台,而Apache Spark是一个高度可扩展的数据平台,SparkR结合了两者的优点,本讲义介绍了关于SparkR的相关内容以及Spark 2.x版本的新特性。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps


本讲义出自Felix Cheung在Spark Summit East 2017上的演讲,R是一个非常受欢迎的科学数据平台,而Apache Spark是一个高度可扩展的数据平台,SparkR结合了两者的优点,本讲义介绍了关于SparkR的相关内容以及Spark 2.x版本的新特性。


f7c682083adf4ba2cee780964c8d55ba5196aa2e

8ac6336c528c55efedc0852d2c9bc7f881285b15

10cb0c1d3f5739e5459f305052faf9665005ae3d

f55d26cb01c8c40f5f20a040dd521cd94feb1834

4e3ee230faeed92390f7cb86db05df60ca48a56e

71e61b99657bc1b5b833a5ca9170488c11ff5ca5

d5acd43451afea32617b15bd67b2dcb74995cf84

e631dfda1d589077592769a2df6d9c14b7489422

4737bef7025b21a34196a6e3d34369e43c1d2604

800706d6e6cdb24becb4b248e3a33abd5c5fda8e

71f66fe925fbdc12fadf2a48e20212f8ff9c3c1f

cbf21b5acf926ef6b75eaf177e68120c6e3773b4

bff7f41ab5c6a9049203abf9bd166888e04742d0

f697417cf956fc0112c233e4f106f968b359d0cb

95e869090db4df3e3ba6ee78c35e405c436cfbc2

6c971e5a26aef074ed678c26b823bd64491b5bbd

6e6fee1933e23abb3382a61f68914d29a2d35ce8

726fde1362c7eb0a19bc54ba193dafa1830d0c06

9ae8430a694bd784564e14174f8b77a71605702d

8e345d09b13525f90474fcb279105e516c8e04d9

5c04815c5cb9d3949022f0b384ac7b2af6453283

e980121ac18a277fa69cf5015b3a012b9f218e6c

43e3a38d05e76ab34e6a1d16c9c5c6bf4931a370

fa963ea322a01daacfcb5b04501edd22dd7c32e2

c0924df84b5fd2f072598037cd7a30860fb7ae24

ac5d9324aa2293a933db58e27a790ea9e3385084

8cdcc7ed3fe1b53e8759a0ca2c90c968a42d6228

d4b951cccc823611f21b0a63aa5f42237dc29033

26fe47bad371621ee2377bbc66995e3b470d8038

9503821f022ad6cd6981586f3ce666d110b9fb18

69f57dfd8f2ef76b8fadd4985dd733fc12f89919

63c3b05615138301221049bb42ffb926e37608d8

98efe74c68fe974934b087c97983977e1357189c

d8a50a28b642b527929a4483d40734afe2af7cb3

6dcbf1f227b23538779cb5ada34a56d16af5dcc2

896487c33da32b29df313295ffd3575a09511e07

0ac6fd1644773738fe1c58e0eeb7a09d8bef8da2

13429a099900833f57b04d0ad6f9f2970dfb694f

0af26dd5de1b3a3ea91767f6a088c38d23e00cc0

8519342852db1f8c0b21f1f784098d0893ae0a2b

15ebfa41c5fb34a90e9b055005cf5a3047aef7ea

9d7d7b0e45e41d9744a771a9854ee2dca92a0187

1e226f21b7ab81518cb172a730fcfbb99235ab80

4bb88c99a471d95b6af73bc1d6fe519d0fbe7659

d7af9c9cc240a9b8f03b77802db95aabc93cbe02

f27b44faf6b815843cc08c58fa3e4739c5ee90df

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
存储 弹性计算 分布式计算
Hadoop集群伸缩难?DLA Spark助力集群快速加弹性
由于历史原因,很多用户的业务运行在用户自建的Hadoop集群上,随着业务的发展会遇到扩容难,缩容慢,弹不出等问题。DLA团队将Serverless、云原生、Spark技术优势深度整合到一起,提供Serverless Spark产品,可以无缝连接用户Hadoop集群,快捷稳定地为传统Hadoop集群增加弹性算力
|
人工智能 分布式计算 Spark
SPARK + AI SUMMIT 2020 中文精华版线上峰会材料
SPARK + AI SUMMIT 2020 中文精华版线上峰会材料
SPARK + AI SUMMIT 2020 中文精华版线上峰会材料
|
机器学习/深度学习 人工智能 分布式计算
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题介绍
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题
|
分布式计算 Prometheus Kubernetes
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月4日上午议题
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月4日上午议题发布
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月4日上午议题
|
SQL 人工智能 缓存
Spark 10年,作者 Matei 在 Spark + AI Summit 2020 上深情回顾,Photon 引擎首次曝光
在Spark + AI Summit 2020上, Matei 先生的keynote对 Spark 10 年做了非常精彩的演讲和深情的回顾。SparkSQL 重回巅峰,在性能上大幅超越 Presto。在过去几年,我们见过了太多的 benchmark,大家都在纷纷超越 Spark。Spark 3.0 这一进展可以说大大提振了大家对 Spark 的信心,可谓及时雨。
Spark 10年,作者 Matei 在 Spark + AI Summit 2020 上深情回顾,Photon 引擎首次曝光
|
3天前
|
分布式计算 大数据 Apache
ClickHouse与大数据生态集成:Spark & Flink 实战
【10月更文挑战第26天】在当今这个数据爆炸的时代,能够高效地处理和分析海量数据成为了企业和组织提升竞争力的关键。作为一款高性能的列式数据库系统,ClickHouse 在大数据分析领域展现出了卓越的能力。然而,为了充分利用ClickHouse的优势,将其与现有的大数据处理框架(如Apache Spark和Apache Flink)进行集成变得尤为重要。本文将从我个人的角度出发,探讨如何通过这些技术的结合,实现对大规模数据的实时处理和分析。
19 2
ClickHouse与大数据生态集成:Spark & Flink 实战
|
25天前
|
存储 分布式计算 算法
大数据-106 Spark Graph X 计算学习 案例:1图的基本计算、2连通图算法、3寻找相同的用户
大数据-106 Spark Graph X 计算学习 案例:1图的基本计算、2连通图算法、3寻找相同的用户
54 0
|
25天前
|
消息中间件 分布式计算 NoSQL
大数据-104 Spark Streaming Kafka Offset Scala实现Redis管理Offset并更新
大数据-104 Spark Streaming Kafka Offset Scala实现Redis管理Offset并更新
34 0
|
25天前
|
消息中间件 存储 分布式计算
大数据-103 Spark Streaming Kafka Offset管理详解 Scala自定义Offset
大数据-103 Spark Streaming Kafka Offset管理详解 Scala自定义Offset
68 0