【Spark Summit East 2017】实时业务数据分析

简介: 本讲义出自Manish Gupta在Spark Summit East 2017上的演讲,当Redis作为分布式共享内存数据存储来进行类似时间序列数据范围查询分析的时候可以帮助Spark加速45倍。使用Redis的机器学习模型redis-ml将可以允许多应用程序同时使用相同的模型,并对于这些模型的分类和执行进行加速。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps


本讲义出自Manish Gupta在Spark Summit East 2017上的演讲,当Redis作为分布式共享内存数据存储来进行类似时间序列数据范围查询分析的时候可以帮助Spark加速45倍。使用Redis的机器学习模型redis-ml将可以允许多应用程序同时使用相同的模型,并对于这些模型的分类和执行进行加速。


17c45e5fa8549fd33d01ff5a0bf9319da72b4896

651002c86563528c5e45a83018ef1276832944b0

5a9fcd69eb4939d5f6984e3e891eca291bd574a4

882a1abb112541284efb690c247cf718daa55928

9e61f46651b9304e887ac02075b6c6ee1c02a7a1

7ebb3e034561f481c5502264244e9299615e121d

3dcab1e99a2d13fed99ee00bb6042ccc9b284a45

f81b17f75c6ea1fb1a7f5c499e5bd9b6dca2771b

df95f58fcfa9682b6348858fe7d2b0d23ef5d57e

a16fcc7c3905c498215d4c7cdc181afba017ab06

b5a106e1db081f4492bcfb8020925360d8fd6386

3b9a694da1350544f7ce21b0f9bda8fa37ddf7c0

9945e6d4e635959c0a91672cd71f4cd218719fc8

3c98b95871db2aeeb63ce673f78ddefbb5e9d617

c891b8e23763d8a6a96cd45a2e8c083b0e54db0e

db1a0b6b6a6dc5608f4541ce7b699aeaea81f85f

be8dc05f306c37354e980b201916d90fe34c2078

b390ace38135c9d298c1bc34ae764583d35301fb

ebeea8326b90e0a01ebcff51dfb548f02b44b568

e86bf1eba9e07ad956a361f629933f8b25660b36





相关文章
|
SQL 分布式计算 数据可视化
Spark SQL案例【电商购买数据分析】
Spark SQL案例【电商购买数据分析】
|
SQL 分布式计算 数据挖掘
Spark_Day07:Spark SQL(DataFrame是什么和数据分析(案例讲解))
Spark_Day07:Spark SQL(DataFrame是什么和数据分析(案例讲解))
353 0
|
分布式计算 数据挖掘 数据处理
Spark如何支持实时数据分析?
【6月更文挑战第16天】Spark如何支持实时数据分析?
416 3
|
SQL 分布式计算 数据挖掘
面试官嫌我Sql写的太low?要求我重写还加了三个需求?——二战Spark电影评分数据分析
面试官嫌我Sql写的太low?要求我重写还加了三个需求?——二战Spark电影评分数据分析
184 0
面试官嫌我Sql写的太low?要求我重写还加了三个需求?——二战Spark电影评分数据分析
|
消息中间件 分布式计算 物联网
大数据Spark物联网设备数据分析
大数据Spark物联网设备数据分析
313 0
大数据Spark物联网设备数据分析
|
分布式计算 数据挖掘 关系型数据库
Spark综合练习——电影评分数据分析
Spark综合练习——电影评分数据分析
228 0
|
SQL 分布式计算 数据可视化
Spark SQL【基于泰坦尼克号生还数据的 Spark 数据分析处理】
Spark SQL【基于泰坦尼克号生还数据的 Spark 数据分析处理】
|
存储 分布式计算 Spark
Spark会把数据都载入到内存么?
这篇文章算是个科普贴。如果已经熟悉Spark的就略过吧。
2045 0
|
存储 分布式计算 Spark
Spark会把数据都载入到内存么?
前言         很多初学者其实对Spark的编程模式还是RDD这个概念理解不到位,就会产生一些误解。   比如,很多时候我们常常以为一个文件是会被完整读入到内存,然后做各种变换,这很可能是受两个概念的误导:   RDD的定义,RDD是一个分布式的不可变数据集合   Spark 是一个内
2579 0
|
8月前
|
人工智能 分布式计算 大数据
大数据≠大样本:基于Spark的特征降维实战(提升10倍训练效率)
本文探讨了大数据场景下降维的核心问题与解决方案,重点分析了“维度灾难”对模型性能的影响及特征冗余的陷阱。通过数学证明与实际案例,揭示高维空间中样本稀疏性问题,并提出基于Spark的分布式降维技术选型与优化策略。文章详细展示了PCA在亿级用户画像中的应用,包括数据准备、核心实现与效果评估,同时深入探讨了协方差矩阵计算与特征值分解的并行优化方法。此外,还介绍了动态维度调整、非线性特征处理及降维与其他AI技术的协同效应,为生产环境提供了最佳实践指南。最终总结出降维的本质与工程实践原则,展望未来发展方向。
415 0