Spark-构建基于Spark的推荐引擎

简介: 推荐引擎推荐引擎就是是预测人们可能喜好的物品并通过探寻物品之间的联系来辅助这个过 程。从这点上来说,它同样也做预测的搜索引擎互补。但与搜索引擎不同,推荐引擎试图向人 们呈现的相关内容并不一定就是人们所搜索的,其返回的某些结果甚至人们都没听说过。

推荐引擎

推荐引擎就是是预测人们可能喜好的物品并通过探寻物品之间的联系来辅助这个过 程。从这点上来说,它同样也做预测的搜索引擎互补。但与搜索引擎不同,推荐引擎试图向人 们呈现的相关内容并不一定就是人们所搜索的,其返回的某些结果甚至人们都没听说过。推荐引擎试图对用户与某类物品之间的联系建模。比如上一个博客案 例中,我们使用推荐引擎来告诉用户有哪些电影他们可能会喜欢。如果这点做得很好,就能吸引 用户持续使用我们的服务。这对双方都有好处。同样,如果能准确告诉用户有哪些电影与某一电 影相似,就能方便用户在站点上找到更多感兴趣的信息。这也能提升用户的体验、参与度以及站 点内容对用户的吸引力。
实际上,推荐引擎的应用并不限于电影、书籍或是产品。
推荐引擎很适合如下两类常见场景(两者可兼有)。

  1. 可选项众多
    可选的物品越多,用户就越难找到想要的物品。如果用户知道他们想要什 么,那搜索能有所帮助。然而最适合的物品往往并不为用户所事先知道。这时,通过向 用户推荐相关物品,其中某些可能用户事先不知道,将能帮助他们发现新物品。
  2. 偏个人喜好
    当人们主要根据个人喜好来选择物品时,推荐引擎能利用集体智慧,根据 其他有类似喜好用户的信息来帮助他们发现所需物品。

任务:

 使用上述模型来为用户进行推荐和求指定物品的类似物品(即相关物品);
 应用标准的评估指标来评估该模型的预测能力。

推荐模型的分类

  1. 基于内容的过滤

  2. 协同过滤

代码

  1. 提取有效特征
  2. 训练推荐模型
  3. 使用推荐模型
  4. 推荐模型效果的评估
    代码:github.com/jinhang
目录
相关文章
|
分布式计算 Kubernetes Java
spark on k8s 镜像构建
spark on k8s 镜像构建
746 0
|
分布式计算 Java Scala
从源代码编译构建Apach Spark3.2.4
使用官方预编译版本的Spark已经足够满足日常需求。当在特定的场景和需求下,重新编译Spark提供了更大的灵活性和控制权,适用于需要特定功能、定制化配置或对Spark进行扩展的场景。
342 1
从源代码编译构建Apach Spark3.2.4
|
存储 分布式计算 关系型数据库
AnalyticDB MySQL — Spark 助力在OSS上构建低成本数据湖
阿里云对象存储OSS(Object Storage Service)是阿里云提供的海量、安全、低成本、高可靠的云存储服务。通过和OSS团队的深入合作,AnalyticDB MySQL 的Spark能力 更好发挥了云原生数据湖方案的优势,本文为你详细解读!
|
存储 分布式计算 OLAP
深度干货|谈谈阿里云AnalyticDB Spark如何构建低成本数据湖分析
本文将分享AnalyticDB MySQL Spark助力构建低成本数据湖分析的最佳实践。
|
存储 分布式计算 关系型数据库
AnalyticDB MySQL Spark 助力在OSS上构建低成本数据湖
借助AnalyticDB MySQL Spark 可以轻松处理OSS上PB级数据,助力企业构建低成本数据湖
|
分布式计算 大数据 Java
Apache Spark + 海豚调度:PB 级数据调度挑战,教你如何构建高效离线工作流
Apache Spark Meetup | 1 月线上直播报名通道已开启,赶快报名预约吧!
553 0
Apache Spark + 海豚调度:PB 级数据调度挑战,教你如何构建高效离线工作流
|
分布式计算 Hadoop Java
spark编译:构建基于hadoop的spark安装包及遇到问题总结
spark编译:构建基于hadoop的spark安装包及遇到问题总结
379 0
spark编译:构建基于hadoop的spark安装包及遇到问题总结
|
机器学习/深度学习 存储 人工智能
重磅解读:基于Occlum和BigDL构建端到端的安全分布式Spark大数据分析方案
重磅解读:基于Occlum和BigDL构建端到端的安全分布式Spark大数据分析方案
1050 0
重磅解读:基于Occlum和BigDL构建端到端的安全分布式Spark大数据分析方案
|
分布式计算 数据处理 分布式数据库
《基于HBase和Spark构建企业级数据处理平台》电子版地址
基于HBase和Spark构建企业级数据处理平台
111 0
《基于HBase和Spark构建企业级数据处理平台》电子版地址
|
分布式计算 资源调度 Hadoop
基于mac构建大数据伪分布式学习环境(七)-部署Scala及Spark学习环境
本文主要讲解如何部署Scala与单机伪分布式Spark计算引擎
121 0
下一篇
DataWorks