开发者学堂课程【高校精品课-北京大学 -推荐系统 :Lec5 混合推荐系统】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/122/detail/13533
Lec5 混合推荐系统
内容介绍:
一、混合系统
二、Netflix 百万美金公开赛
一、混合系统
推荐方法 |
优点 |
缺点 |
基于人口统计学 |
能为新用户推荐 |
个性化程度低 |
协同过滤 |
个性化程度高 结果具有新颖性 |
数据稀疏问题 冷启动问题 |
基于人口统计学的核心思想是利用用户的人口统计学信息找相似用户并推荐,方法能给新用户推荐结果,由于依赖于人工统计学信息,力度较为突出,而且人工统计学并不能很好的统计出用户的喜好,所以个性化程度低,推荐较差。
基于协同过滤的算法是根据用户的历史反馈行为找相似的用户并给出合理推荐,个性化程度高,且结果具有新颖性,但是方法会带来数据稀疏问题和冷启动问题,无法为新用户提供新的项目,给出合理的结果。
基于内容 |
能推荐新项目 容易解释 |
用户冷启动 结果缺乏新颖 |
基于知识 |
没有冷启动问题 结果具有可解释性 |
需要人工交互 知识获取困难 |
基于内容是根据内容的相似度推荐结果,它能为新的项目给出结果,并且推荐结果容易解释,但是存在用户冷启动,无法为新用户推荐结果,并且推荐的结构缺乏新颖性,反复给用户推荐和它历史反馈过的项目或者内容相似的结果,导致缺乏新颖。
基于知识的推荐能够有效的解决冷启动问题,包括项目启动和冷启动,并且结果具有可解释性,但是方法需要人工交互给出用户的偏好,并且依赖于领域知库,知识获取困难。
各种基础推荐算法虽然各有利弊,但相互之间存在互补,利用特性可以构建混合推荐。思想是把各种基础算法进行组合,弥补各自的缺点,实现取长补短效果。
目标:提升系统的准确度和稳定性。
动机:各种基础推荐算法虽然各有利弊,但相互之间存在互补。
现状: Netlix、Amazon、淘宝、头条等平台都采用混合推荐。
二、Netflix 百万美金公开赛
1、目标是使得它当前的推荐效果能够提升10%,其基准是现有的一套推荐系统,比赛当时吸引了全球80多个国家,超过四万支队伍参赛,对整个推荐系统有巨大影响。
2、在开始比赛后三周,40多支参赛队伍的成绩过 Netflix 的推荐系统,并且有些结果接近5%的提升,很顺利,两个月提升接近6%,速度变慢,6个月接近7%,之后半年才接近8%,一年的时间大家尝试并且实现推荐算法,进入平台期,主要依靠基础算法的混合,直到第三年的时候完成目标,实现10%,一个由工程师和统计学家组成的七人团队夺得了大奖。
3、从提升效果看前面两支队伍的结果都达到10%,但是在时间上相差8分钟。
第二支队伍是基于多种基础推荐算法集成之后得到的系统。
从冠军方案示例图可以看到核心思想是来自基础推荐算法的混合,原始利用了约500多个不同的推荐模型,有不同类型的模型,也有同一类型不同参数的模型,采用三种不同的混合方式,最终实现10.09%的效果提升,通过案例可以看出很多场景下面提升性能的关键需要依赖于混合。