【Spark Summit East 2017】基于Spark构建的Netflix推荐ML Pipeline

简介: 本讲义出自Tsai在Spark Summit East 2017上的演讲,主要介绍了Netflix如何使用Apache Spark作为分布式计算框架以及机器学习技术来构建自己的算法来为8000万以上的用户进行个性化推荐,并介绍了在面对Netflix量级的用户带来的挑战中使用的技术和遇到的陷阱。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps


本讲义出自Tsai在Spark Summit East 2017上的演讲,主要介绍了Netflix如何使用Apache Spark作为分布式计算框架以及机器学习技术来构建自己的算法来为8000万以上的用户进行个性化推荐,并介绍了在面对Netflix量级的用户带来的挑战中使用的技术和遇到的陷阱。


0118870386f9bf5ed5b634722630f108a1345892

34aec7aa42dd56899219bf8cd3232f51e842453c

2d5572d9209abcf639da387c6a1b684b30acf67a


7cbb0afb0be608e3bfc14309b6947a8a68e437a1

562de7525f311d1f74707ebc2c98cb3da37fdc33

777c562850fa6ac3a74f2f7337cc2bae7276b9b6

a485fbc1c3781c393949092bd0a693fd7dd11a53

a492dbb8594a769c971d8591207e1eea15be1192

ef2cce7609d4485a80d99de8c51b60a7e0e19bf5

b819ce6d0f65b2b4e550bef641a653963cf8ab38

9655da8d5e8105b613d5f23941ada6a69ffe034b

f6d20fdc9a488e0ca3fb08846c8ec284ced93853

0c403d21ccbe4d21f87c1559ccef6d2d323ff532

05c332d79d50fcf3de5c616ff103a592c86f95e0

21001b401c0184201b0fcf72ed8ff15eafc73f76

ddab89c9bc07b4338c524fc9c6a71424b02ea241

a2164c4282f9de90e4f4881631e228220bed9842

d4453addd792e597c56e773e0dd4573bbb03b5e7

9e5041b4871e867d5ae145d3ebf334d0a44e9ee2

f5e7f23989b919d5f037baec31ac63d0d08cf1e8

8d2868dcee8369ac7ff7bcde995287519d9ca29b
04ce64514dbc582adb5513fb1f48a93a742f8ee1

2d496fbd9b099b84b113aa71f62273e24c5122f3

e6bfa79c36b1fa7b98c9b901acfd22ab213dcd99

相关文章
|
6月前
|
机器学习/深度学习 数据采集 分布式计算
【机器学习】Spark ML 对数据进行规范化预处理 StandardScaler 与向量拆分
标准化Scaler是数据预处理技术,用于将特征值映射到均值0、方差1的标准正态分布,以消除不同尺度特征的影响,提升模型稳定性和精度。Spark ML中的StandardScaler实现此功能,通过`.setInputCol`、`.setOutputCol`等方法配置并应用到DataFrame数据。示例展示了如何在Spark中使用StandardScaler进行数据规范化,包括创建SparkSession,构建DataFrame,使用VectorAssembler和StandardScaler,以及将向量拆分为列。规范化有助于降低特征重要性,提高模型训练速度和计算效率。
101 6
|
6月前
|
机器学习/深度学习 分布式计算 算法
【机器学习】Spark ML 对数据特征进行 One-Hot 编码
One-Hot 编码是机器学习中将离散特征转换为数值表示的方法,每个取值映射为一个二进制向量,常用于避免特征间大小关系影响模型。Spark ML 提供 OneHotEncoder 进行编码,输入输出列可通过 `inputCol` 和 `outputCol` 参数设置。在示例中,先用 StringIndexer 对类别特征编码,再用 OneHotEncoder 转换,最后展示编码结果。注意 One-Hot 编码可能导致高维问题,可结合实际情况选择编码方式。
75 6
|
分布式计算 Java Scala
从源代码编译构建Apach Spark3.2.4
使用官方预编译版本的Spark已经足够满足日常需求。当在特定的场景和需求下,重新编译Spark提供了更大的灵活性和控制权,适用于需要特定功能、定制化配置或对Spark进行扩展的场景。
316 1
从源代码编译构建Apach Spark3.2.4
|
存储 分布式计算 关系型数据库
AnalyticDB MySQL — Spark 助力在OSS上构建低成本数据湖
阿里云对象存储OSS(Object Storage Service)是阿里云提供的海量、安全、低成本、高可靠的云存储服务。通过和OSS团队的深入合作,AnalyticDB MySQL 的Spark能力 更好发挥了云原生数据湖方案的优势,本文为你详细解读!
|
存储 分布式计算 OLAP
深度干货|谈谈阿里云AnalyticDB Spark如何构建低成本数据湖分析
本文将分享AnalyticDB MySQL Spark助力构建低成本数据湖分析的最佳实践。
|
机器学习/深度学习 数据采集 存储
初探 Spark ML 第一部分
初探 Spark ML 第一部分
121 1
|
存储 分布式计算 关系型数据库
AnalyticDB MySQL Spark 助力在OSS上构建低成本数据湖
借助AnalyticDB MySQL Spark 可以轻松处理OSS上PB级数据,助力企业构建低成本数据湖
|
机器学习/深度学习 数据采集 分布式计算
Spark机器学习管道 - Pipeline
Spark机器学习管道 - Pipeline
|
分布式计算 大数据 Java
Apache Spark + 海豚调度:PB 级数据调度挑战,教你如何构建高效离线工作流
Apache Spark Meetup | 1 月线上直播报名通道已开启,赶快报名预约吧!
539 0
Apache Spark + 海豚调度:PB 级数据调度挑战,教你如何构建高效离线工作流
|
分布式计算 Hadoop Java
spark编译:构建基于hadoop的spark安装包及遇到问题总结
spark编译:构建基于hadoop的spark安装包及遇到问题总结
356 0
spark编译:构建基于hadoop的spark安装包及遇到问题总结