[推荐系统]信息过载与推荐系统-阿里云开发者社区

[推荐系统]信息过载与推荐系统

2014-06-02 1678

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

我小的时候，电视只能收到三四个台，很多那个时候的电视节目，例如《动物世界》、《射雕英雄传》、《渴望》等等，都成了经典——可选择的少了，能记住的反倒多了。现在的电视，动辄能收到上百个台，往好里说是百花齐放，异彩纷呈；往差里说是五色杂陈，泥沙俱下。可看的多了，反而不知道看什么好，往往是“乱花渐欲迷人眼”，转了一圈都找不到中意的节目。几百个电视频道就够让人心烦意乱了，网络世界则更加恐怖：Netflix.com上面有数万部电影，Amazon.com上面有数百万本书，Del.icio.us上面有超过10亿的网页收藏……不要说仔细选择，把题目全看一遍，也是绝不可能的事情。可以获取的信息多了，在表面丰富的背后，意味着从汪洋大海中找到你所需要的信息，其难度和成本都上升了。这些让人头痛的问题，就是所谓的信息超载(information overload)。简单地说，信息超载就是指过量信息的同时呈现，远远超出了一般用户的分辨和处理能力——可以选择的多了，却不知道如何选择。其表现为可获取的信息多了，用户体验却不见好，甚至变得更差。

很多工具被开发出来指导用户如何更好地利用信息，例如阅读《广播电视报》可以帮助你更好地找到自己喜欢的电视节目。因为信息超载主要还是与互联网有关的问题，下面我们把注意力集中在互联网上面。为了帮助用户通过互联网找到自己喜欢或者有用的东西，信息集成和信息过滤的工具是必要的，大致而言，这方面的发展经历了四个阶段（不是严格的时间先后关系）。

首先是信息索引工具。简而言之，信息索引就像电话黄页一样，把可能有用的信息按照某种分类或者顺序组织起来，便于用户查找。这里给出了一个名为“化学信息导航站”的信息索引网站的例子（http://home.ustc.edu.cn/~wjbai/chem/chem.html）。该网站将从事化学学习和研究中可能用到的一些资源，按照一定的方式，例如学科方向或者研究机构，进行分类和组织。这类网站所引用的地址和信息，往往都是相当稳定的，例如美国化学学会的网址，没有重大原因肯定不会更换。这种信息索引在专业研究领域广泛使用，例如针对蛋白质结构和基因组问题，每年都会有一本新的手册，公布相关研究机构的网址，和在网络上可以公开使用的数据资源地址。信息索引网站尽管简单，但现在仍然广泛使用，大家熟知的网站 www.hao123.com (hao123 网址之家 ) 仅仅是罗列了一些较知名的网站，但是其网站访问流量在我国非常靠前。总的来说，信息索引工具的优点是简单易用，缺点是更新慢，适应能力差，缺乏用户的个性化特征。

第二就是所谓的门户网站，例如我们熟悉的雅虎、新浪、搜狐等等。门户网站使用也很方便，并且集中了主流的兴趣，一般的用户总是能够从中找到部分自己感兴趣的内容。相比信息索引，门户网站的更新也很快。但是，门户网站有一个同样的弊端，就是缺少个性化设计，无法满足用户与主流兴趣不符合的需求。

过滤海量信息方面里程碑的进展来自于搜索引擎的出现。通过主题定位（输入关键词），用户能够比较准确地找到自己感兴趣的网页。搜索引擎是使用最频繁的网络信息过滤工具，对于我们的生活有巨大影响，事实上，Google和百度已经不仅仅是网站的名称，而是常用的动词。但是，搜索引擎仍然存在两个比较严重的问题。首先，尽管选择关键词是完全个性化的，但是针对同一个关键词，返回的信息对于每一个用户仍然是相同的，事实上也是表达了主流的兴趣，倘若对某关键词或者关键词组，用户的兴趣和主流兴趣不一致，那么他很难从返回的搜索结果中找到自己感兴趣的内容。另外，有一些对信息内容的需求，是没有办法通过简单的关键词匹配表示出来的。例如，一个用户可能对于某种类型的小说或者诗歌非常喜欢，但这是一种整体的感觉，并不仅仅取决于某个作者或者某个主题——这种感觉难以言表，因此也就无法进行搜索。

如果把关键词和搜索引擎作为探索信息世界的武器，如同宇宙中有很多我们探索不到的暗物质，万维网中也有很多“暗信息”，这些信息是我们（普通用户）探寻不到的。推荐系统的基本原理，就是对用户的历史活动记录进行统计分析，挖掘用户的喜好，然后根据这些喜好，自动地从海量信息中找到与之匹配的内容，并进行推荐。推荐系统是网络信息过滤工具的第四个阶段，也是目前解决信息超载问题最有潜力的办法。因为每个用户的历史信息都不相同，所以推荐结果也是个性化的。

推荐系统这个概念，在上世纪九十年代就比较成熟了[1]。最近的火热发展，来源于Web2.0技术的成熟。因为有了这个技术，用户不再是被动的网页浏览者，而成为主动参与者[2]。通过对网站提供的项目（包括用户主动提交到网站上的项目）进行评分或粘贴标签，用户的喜好潜在地表现在这些活动中，网站可以设计相应的推荐算法，把这些喜好挖掘出来，从而向用户推荐他们可能感兴趣的项目。推荐系统的兴起，还得益于它重大的商业化前景。以我国为例，现在一年网络购物的交易量约为500亿美元，而且这个数字还在激增。在基于Web2.0的购物网站上，用户除了购物以外，还可以对所购物品进行评价——这些评价可以被其他用户看到并参考。那么，一个自然的问题就是，能不能利用这些评价记录，最大可能地挖掘用户喜好，向用户推荐他可能喜欢的商品。这不仅仅是一种商品营销手段，而且可以增加用户对该网站的黏着性（谁会拒绝一个了解自己喜好的网站呢）。现在推荐系统的商务化应用已经比较广泛，例如Amazon.com推荐书，Netflix.com推荐电影，Music.Yahoo.com推荐音乐，Sesamr.com推荐网址，AdaptiveInfo.com 推荐新闻。此外还有推荐朋友，推荐食品等等，不一而足。

除了计算机互联网，手机现在也成为了推荐系统的新媒介。例如可以通过手机信号发送的购物推荐信息，用户可以对推荐的产品和陈列的产品进行评价，这些评价信息将成为推荐的数据基础。因为手机号码具有唯一性，所以每个手机的拥有者都可以被视作一个独立用户。随着电子货币的发展，用户利用信用卡在超市刷卡购物的信息也可以被记录，这些信息也可以被用于推荐。

本文引用地址： http://blog.sciencenet.cn/blog-3075-25413.html

[推荐系统]信息过载与推荐系统

热门文章

最新文章

相关课程

相关电子书

相关实验场景