本节书摘来自异步社区出版社《写给程序员的数据挖掘实践指南》一书中的第1章,第1.2节,作者:【美】Ron Zacharski(扎哈尔斯基),更多章节内容可以访问云栖社区“异步社区”公众号查看。
1.2并不只是对象
数据挖掘不仅仅只与对象推荐有关,也不只是帮助销售者卖掉更多的物品。考虑如下的例子。
100年前那个小镇的镇长认识所有人。当竞选连任时,他知道对每个人怎样说才最合适。
我父亲隶属于全美汽车工人协会,我记得在选举期间协会代表会登门造访并提醒父亲为哪位候选人投票:
嗨,Syl,夫人和孩子都还好吧?……现在我来告诉你为什么要投社会党市长候选人Frank Zeidler的票……
随着电视的兴起,上述个性化的政治广告词变成了千篇一律的电视广告。每个人看到的广告词都一模一样。一个好例子是支持Lyndon Johnson9(该广告的画面上有一个年轻小女孩从菊花上摘花瓣,而在她身后一颗核弹正在爆炸)的著名《雏菊女孩》电视广告10。今天,由于选举取决于很小的差异和日益增长的数据挖掘应用,个性化得以再次回归。假如你对妇女的选举权感兴趣,那么你可能会接到直接与这个主题相关的自动答录电话(Robocall)11。
前面提到的小镇的警长很清楚哪些人会制造麻烦。但是现在威胁呈现出潜伏的趋势,恐怖分子有可能出现在任何地区。2001年美国政府通过了美国爱国者法案(Uniting and Strengthening America by Providing Appropriate Tools Required to Intercept and Obstruct Terrorism,Patriot Act)。该法案在某种程度上允许调查人员从多个数据源获得记录,这些数据源包括我们借书的图书馆、停留的宾馆、信用卡公司及我们通过并登记过的收费站,等等。政府主要通过私人公司来保留我们的数据。像Seisint一样的公司几乎拥有我们大部分人的数据,包括相片、居住地、私家车型号、收入、购买行为及朋友等等。Seisint拥有超级计算机并使用数据挖掘技术来对人们进行预测。他们的这款产品称作——The Matrix。
根据数据挖掘可以对已做的事进行扩展
史蒂芬·贝克(Stephen Baker)在他的书The Numerati中一开始就这样写到:
假想你在一个咖啡店,或许就是我现在正在坐着的嘈杂小店中。在你右座上坐着一个年轻女士,她正在使用笔记本电脑。你抬起头看了看她的屏幕。你看到她正在浏览互联网。
几个小时过去后,她开始阅读在线新闻。你注意到她阅读了3份有关中国的新闻报道。随后,她开始寻找周五晚上的电影信息,之后浏览了《功夫熊猫》的预告短片。她点击了一条承诺可以帮她找到高中老同学的广告。你坐在那里记着笔记,每过去一分钟,你会更进一步了解那位女士。现在假想一下你可以观察1.5亿人同时发生的浏览行为。
数据挖掘关注数据中的模式发现。当数据规模很小的时候,我们很擅长在心里建立模型并发现模式。我想今天晚上和太太一起看电影。我心里知道我太太喜欢什么电影。我还知道她不喜欢暴力片(所以她不喜欢《第9区》)。她喜欢查理·考夫曼(Charlie Kaufman)的电影。我可以利用这种心里的关于我太太的电影偏好模型来预测她可能喜欢或不喜欢哪些影片。
一个朋友从欧洲过来访问。我知道她是个素食主义者,利用这个信息我可以预测她不会喜欢本地的牛排餐厅。人们善于构建模型并进行预测。数据挖掘能够扩展这种能力,让我们能够处理大量信息,比如上面史蒂芬·贝克提到的1.5亿人。这也能使得Pandora音乐服务按照你的特定音乐喜好构建音乐电台,也能使Netflix为你进行特定的个性化电影推荐服务。