少数人的智慧

简介:

郑昀@玩聚SR 20091105

一、冷启动

Greg Linden针对最新的一篇论文:"The Wisdom of the Few: A Collaborative Filtering Approach Based on Expert Opinions from the Web" (PDF,即《少数人的智慧:基于网络专家意见的协同过滤研究》) 做了如下点评

What they do say is that using a very small pool of experts works surprisingly well.

论文说的是,用很小一个专家池,推荐效果惊人地好。

In particular, I think it suggests a good alternative to content-based methods for bootstrapping a recommender system.

我认为它为一个推荐系统的自启动指出了一个很好的替代选择。

If you can create a high quality pool of experts, even a fairly small one, you may have good results starting with that while you work to gather ratings from the broader community.

即,选择一个高质量专家池,可以是你组建的团队,也可以是你选中的专家群,即使是相当小的一个群体,你的推荐系统也会有一个非常好的开端。少数人的智慧,此时此刻,可以解决推荐系统的冷启动问题。这也是玩聚SR最开始选择Experts Pool作为起源,一上来就有很好信息过滤器效果的原因。

 

二、论文的摘要:

为了方便理解,下面意译一下该论文:

最近邻协同过滤(Nearest-neighbor collaborative filtering)是一个很有效的推荐方法。但它总受困于这几个问题:

数据稀疏和噪音;冷启动问题(cold-start);可扩展性问题。

所以论文作者提出一个新方法,一个传统协同过滤方法的变种:

并不是对用户打分数据(User-rating data)实施最近邻算法,而是用一个专家邻居(expert neighbors)集合作为比对样本,去计算这批人与目标用户的相似度。

这个方法至少没有太大可扩展性问题,相当于缩小了比对的基准集合。最近邻原方法可近似理解为做两两比对,计算肯定花时间,而且当新用户(尤其是某某观光团的到来会让数据噪音多得一塌糊涂)比比皆是时,没有几条数据能够让你进行相似性计算。

 

作者定义专家为,在给定领域,能够产生思虑周全的、始终如一的和可靠的评估(评分)、我们可信任的独立个体。

(原文:

We define an expert as an individual that we can
trust to have produced thoughtful, consistent and reliable
evaluations (ratings) of items in a given domain.

 

我们比较关注论文作者们的以下两个探讨问题的角度:

(a) study how preferences of a large population can be pre-
dicted by using a very small set of users;

研究用一小群用户去预测海量用户到底有多大的可参考价值;

(c) analyze whether professional raters are good predictors for general users;

 

如果这几个角度是可行的话,那么实际上并不需要拿到一个海量用户社区的所有数据,只要锁定Experts Pool即可为用户进行推荐。

 

附录:

Greg Linden在被封的BlogSpot的原文如下:

Wednesday, November 04, 2009

Using only experts for recommendations
A recent paper from SIGIR, "The Wisdom of the Few: A Collaborative Filtering Approach Based on Expert Opinions from the Web" ( PDF ), has a very useful exploration into the effectiveness of recommendations using only a small pool of trusted experts.
The results suggest that using a small pool of a couple hundred experts, possibly your own experts or experts selected and mined from the web, has quite a bit of value, especially in cases where big data from a large community is unavailable.
A brief excerpt from the paper:
Recommending items to users based on expert opinions .... addresses some of the shortcomings of traditional CF: data sparsity, scalability, noise in user feedback, privacy, and the cold-start problem .... [Our] method's performance is comparable to traditional CF algorithms, even when using an extremely small expert set .... [of] 169 experts.
Our approach requires obtaining a set of ... experts ... [We] crawled the Rotten Tomatoes web site –- which aggregates the opinions of movie critics from various media sources -- to obtain expert ratings of the movies in the Netflix data set.
The authors certainly do not claim that using a small pool of experts is better than traditional collaborative filtering.
What they do say is that using a very small pool of experts works surprisingly well. In particular, I think it suggests a good alternative to content-based methods for bootstrapping a recommender system.  If you can create a high quality pool of experts, even a fairly small one, you may have good results starting with that while you work to gather ratings from the broader community.

 

目录
相关文章
|
4月前
|
存储 Java API
Quartz表达式:定时任务调度的高级配置与应用
Quartz表达式:定时任务调度的高级配置与应用
|
网络虚拟化 网络架构
|
机器学习/深度学习 传感器 算法
《机器学习与R语言(原书第2版)》一 第1章 机器学习简介
如果科幻故事是可信的,那么人工智能的发明将会不可避免地导致机器和其制造者之间的末日战争。在计算机使用的早期,计算机被教会玩井字棋和国际象棋这样一些简单的游戏。后来,机器被用来控制交通信号灯和通信,随后用来控制军用无人机和导弹。
1309 0
|
3天前
|
SQL 人工智能 安全
【灵码助力安全1】——利用通义灵码辅助快速代码审计的最佳实践
本文介绍了作者在数据安全比赛中遇到的一个开源框架的代码审计过程。作者使用了多种工具,特别是“通义灵码”,帮助发现了多个高危漏洞,包括路径遍历、文件上传、目录删除、SQL注入和XSS漏洞。文章详细描述了如何利用这些工具进行漏洞定位和验证,并分享了使用“通义灵码”的心得和体验。最后,作者总结了AI在代码审计中的优势和不足,并展望了未来的发展方向。
|
11天前
|
编解码 Java 程序员
写代码还有专业的编程显示器?
写代码已经十个年头了, 一直都是习惯直接用一台Mac电脑写代码 偶尔接一个显示器, 但是可能因为公司配的显示器不怎么样, 还要接转接头 搞得桌面杂乱无章,分辨率也低,感觉屏幕还是Mac自带的看着舒服
|
18天前
|
存储 人工智能 缓存
AI助理直击要害,从繁复中提炼精华——使用CDN加速访问OSS存储的图片
本案例介绍如何利用AI助理快速实现OSS存储的图片接入CDN,以加速图片访问。通过AI助理提炼关键操作步骤,避免在复杂文档中寻找解决方案。主要步骤包括开通CDN、添加加速域名、配置CNAME等。实测显示,接入CDN后图片加载时间显著缩短,验证了加速效果。此方法大幅提高了操作效率,降低了学习成本。
2808 8
|
13天前
|
存储 缓存 关系型数据库
MySQL事务日志-Redo Log工作原理分析
事务的隔离性和原子性分别通过锁和事务日志实现,而持久性则依赖于事务日志中的`Redo Log`。在MySQL中,`Redo Log`确保已提交事务的数据能持久保存,即使系统崩溃也能通过重做日志恢复数据。其工作原理是记录数据在内存中的更改,待事务提交时写入磁盘。此外,`Redo Log`采用简单的物理日志格式和高效的顺序IO,确保快速提交。通过不同的落盘策略,可在性能和安全性之间做出权衡。
1576 12
|
5天前
|
人工智能 关系型数据库 Serverless
1024,致开发者们——希望和你一起用技术人独有的方式,庆祝你的主场
阿里云开发者社区推出“1024·云上见”程序员节专题活动,包括云上实操、开发者测评和征文三个分会场,提供14个实操活动、3个解决方案、3 个产品方案的测评及征文比赛,旨在帮助开发者提升技能、分享经验,共筑技术梦想。
715 95