【Spark Summit East 2017】使用Spark对仙女星系数据进行分析

简介: 本讲义出自Jose Nandez在Spark Summit East 2017上的演讲,主要介绍了使用Spark与Python API对于仙女星系的数据进行交互式数据分析,Spark-Python代码充分利用了Spark RDDs进行查询来帮助预测某一对像是否属于仙女星系。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps


本讲义出自Jose Nandez在Spark Summit East 2017上的演讲,主要介绍了使用Spark与Python API对于仙女星系的数据进行交互式数据分析,Spark-Python代码充分利用了Spark RDDs进行查询来帮助预测某一对像是否属于仙女星系。


ea4453203c0b94583f05a72b7e0f8850c098309f

2485ae77ac7f2f834df10ac541b6390b6f2bfcdc

56f147be9985d8074224f0ba0593a0039a201a58

0819e18a89e49d1126da77fe072a0b0219c79e00

6d81fd11ba7330990e7d13b4bd6e4c4e13e1e04e

c395b52b97eb2f705d1fad87c2d0278fa6289513

f0bbd429e49e02972ccbc5fc3ff7e1958e57b7ce

78f4ee41f6310f543e276b3bfe44908e1553cb3c

8a6425630aef4bf829bbb5aa64ad905999a254ac

4cbeb143f04251eafb3d8843c8cde506d56f5e19

e267645a386ce29b20f13e5d36b3f92ed514f0f4

a838a827b9d1507f02da6b6cb8b81c344576b457

da11beeef02fb3bf63360c079d621e4396b556de

0e092cea6f39ee91a20c921ffa67568565403eb5

e80df50a38c9e3057679c36e21094457719f765c

d010e4afaa18194f026fccccefa1f73d10c47e47

935d911860b5c5aee30fe2de7fc67d662fcef7dd

5a4fd10ec131ed5c6bafa04f4ed833a0142d95d1

相关文章
|
3月前
|
SQL 分布式计算 API
Spark学习------SparkSQL(概述、编程、数据的加载和保存)
Spark学习------SparkSQL(概述、编程、数据的加载和保存)
|
4天前
|
SQL 分布式计算 数据可视化
数据分享|Python、Spark SQL、MapReduce决策树、回归对车祸发生率影响因素可视化分析
数据分享|Python、Spark SQL、MapReduce决策树、回归对车祸发生率影响因素可视化分析
|
8天前
|
机器学习/深度学习 分布式计算 数据处理
Spark是一个基于内存的通用数据处理引擎,可以进行大规模数据处理和分析
【5月更文挑战第2天】Spark是一个基于内存的通用数据处理引擎,可以进行大规模数据处理和分析
22 3
|
14天前
|
新零售 分布式计算 数据可视化
数据分享|基于Python、Hadoop零售交易数据的Spark数据处理与Echarts可视化分析
数据分享|基于Python、Hadoop零售交易数据的Spark数据处理与Echarts可视化分析
|
2月前
|
SQL 分布式计算 Java
Spark学习---SparkSQL(概述、编程、数据的加载和保存、自定义UDFA、项目实战)
Spark学习---SparkSQL(概述、编程、数据的加载和保存、自定义UDFA、项目实战)
138 1
|
2月前
|
SQL 分布式计算 HIVE
Spark读取变更Hudi数据集Schema实现分析
Spark读取变更Hudi数据集Schema实现分析
42 0
|
2月前
|
存储 分布式计算 API
adb spark的lakehouse api访问内表数据,还支持算子下推吗
【2月更文挑战第21天】adb spark的lakehouse api访问内表数据,还支持算子下推吗
108 2
|
3月前
|
分布式计算 大数据 Java
Spark 大数据实战:基于 RDD 的大数据处理分析
Spark 大数据实战:基于 RDD 的大数据处理分析
137 0
|
分布式计算 Java Spark
|
分布式计算 Java Spark
Spark Streaming 数据清理机制
大家刚开始用Spark Streaming时,心里肯定嘀咕,对于一个7*24小时运行的数据,cache住的RDD,broadcast 系统会帮忙自己清理掉么?还是说必须自己做清理?如果系统帮忙清理的话,机制是啥?
2956 0