【Spark Summit East 2017】基于Spark的行为分析研究

简介: 本讲义出自John W u在Spark Summit East 2017上的演讲,主要介绍了在Spark生态系统中使用机器学习技术对于一系列应用的用户行为进行分析理解的经验。在这种背景下,Spark使得大型高性能计算系统的强大计算能力可以被可用行为经济学家使用,而不需要像科学家那样去了解并行计算。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps


本讲义出自John W u在Spark Summit East 2017上的演讲,主要介绍了在Spark生态系统中使用机器学习技术对于一系列应用的用户行为进行分析理解的经验。在这种背景下,Spark使得大型高性能计算系统的强大计算能力可以被可用行为经济学家使用,而不需要像科学家那样去了解并行计算。


ac327b9492da9172fd5b20f3660688c09cc0697d

0239a8969539ac9b3d7cd13905d48ffd4c71142f

fcab78a002320e928e652f899a57dd7b6ebb6ae9

b9cf0d7e4eea7515debb365e1542e8d2ff494383

1edd69ccdf02d9e61e55e66c44049bcd02086e01

1c8cc7257327d4ca8f0c02e383f6e8352a463f8d

d22f227b1a84450c2b50d9c496b1b55bc177e959

e89a12526a86f9a0ba55578db35bb81e14ee8a44

cec333c9c73281d9ff86b2f75d62d815e842b77d

4971813182c6ee504152d0b3d8194a190697e2bb

aa4ce85d631a2427aa3348bb2729f2bf1351448c

6378fbb5e2c81bdef003612e97015baef03e91ea

1c4e79f8326017121311d5e049b9879aa0ee777f

409cd98a48ef974691716b0e1169069e2daa50a0

b167def238a3b319615f3c9d711b270f60a84c8c

8d0982cf0e397ef3a79fc5942b17da54f3136c47

a7e60d50c5984fb31ff4417157712d8b252f663e

ed7a54656a8c2c9581b67bf00e8febb2eb16aa10

相关文章
|
2月前
|
机器学习/深度学习 分布式计算 算法
Spark快速大数据分析PDF下载读书分享推荐
《Spark快速大数据分析》适合初学者,聚焦Spark实用技巧,同时深入核心概念。作者团队来自Databricks,书中详述Spark 3.0新特性,结合机器学习展示大数据分析。Spark是大数据分析的首选工具,本书助你驾驭这一利器。[PDF下载链接][1]。 ![Spark Book Cover][2] [1]: https://zhangfeidezhu.com/?p=345 [2]: https://i-blog.csdnimg.cn/direct/6b851489ad1944548602766ea9d62136.png#pic_center
111 1
Spark快速大数据分析PDF下载读书分享推荐
|
4月前
|
移动开发 分布式计算 Spark
Spark的几种去重的原理分析
Spark的几种去重的原理分析
67 0
|
4月前
|
机器学习/深度学习 SQL 分布式计算
Apache Spark 的基本概念和在大数据分析中的应用
介绍 Apache Spark 的基本概念和在大数据分析中的应用
236 0
|
4月前
|
机器学习/深度学习 SQL 分布式计算
介绍 Apache Spark 的基本概念和在大数据分析中的应用。
介绍 Apache Spark 的基本概念和在大数据分析中的应用。
|
4月前
|
SQL 分布式计算 HIVE
Spark数据倾斜问题分析和解决
Spark数据倾斜问题分析和解决
70 0
|
2月前
|
弹性计算 分布式计算 Serverless
全托管一站式大规模数据处理和分析Serverless平台 | EMR Serverless Spark 评测
【7月更文挑战第6天】全托管一站式大规模数据处理和分析Serverless平台 | EMR Serverless Spark 评测
23681 42
|
4月前
|
SQL 分布式计算 监控
基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用
本文演示了使用 EMR Serverless Spark 产品搭建一个日志分析应用的全流程,包括数据开发和生产调度以及交互式查询等场景。
56571 7
基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用
|
3月前
|
机器学习/深度学习 数据采集 分布式计算
基于spark的大数据分析预测地震受灾情况的系统设计
基于spark的大数据分析预测地震受灾情况的系统设计
|
4月前
|
SQL 分布式计算 关系型数据库
Spark 分析计算连续三周登录的用户数
本文介绍了如何使用窗口函数`range between`来查询`login_time`为2022-03-10的用户最近连续三周的登录数。首先在MySQL中创建`log_data`表并插入数据,接着定义需求为找出该日期前连续三周活跃的用户数。通过Spark SQL,分步骤实现:1)确定统计周期,2)筛选符合条件的数据,3)计算用户连续登录状态。在初始实现中出现错误,因未考虑日期在周中的位置,修正后正确计算出活跃用户数。
|
3月前
|
分布式计算 定位技术 Scala
使用spark基于出租车GPS数据实现车辆数量统计以及北京每个城区的车辆位置点数分析
使用spark基于出租车GPS数据实现车辆数量统计以及北京每个城区的车辆位置点数分析