网络江湖里爬虫玩的是一场“无间道”-阿里云开发者社区

开发者社区> 阿里云安全> 正文

网络江湖里爬虫玩的是一场“无间道”

简介: 电影《无间道》中,梁朝伟扮演在黑帮卧底的警察虽然能力出众,但也像普通人一样向往平静的生活,当与其单线联系的黄警官被杀,他在警局的档案又被在警局卧底的伪警察刘建明彻底删除后,再无法证明其真警察的身份,最后被一名伪警察枪杀…… 一个永远无法证明自己身份的人,空有躯壳,无法掌握自己的人生轨迹。

电影《无间道》中,梁朝伟扮演在黑帮卧底的警察虽然能力出众,但也像普通人一样向往平静的生活,当与其单线联系的黄警官被杀,他在警局的档案又被在警局卧底的伪警察刘建明彻底删除后,再无法证明其真警察的身份,最后被一名伪警察枪杀……

一个永远无法证明自己身份的人,空有躯壳,无法掌握自己的人生轨迹。卧底无疑才华卓越不然也不会被选中,但最终逃不出别人的控制。当然这个职业也被打上很多亮丽的标签,#能力优秀#、#聪明#、#超强生命力#……

其实,今天不是想来谈论卧底的,只是想引出我们要讲的爬虫,因为它可以比喻潜藏在网络江湖里的“专业卧底”: 超强获取情报的能力、命运不由已,为恶为善全凭他人掌控,摇摆不定。唯一不可否认的是,业内都看中他的“才华”。

灼灼其华,爬虫是优秀的。

就像《无间道》里黑帮卧底的真警察陈永仁一样,能活着是因为他的能力,他的优秀。爬虫亦如此,在网络江湖世界里混的风生水起:

1. 搜索引擎爬虫

搜索引擎爬虫是最常见的善意爬虫,当用户用搜索引擎搜索信息时,爬虫会代替人工自动从各类网站爬取相关信息,并整理索引,将真正有价值的内容呈现在用户面前。由于网站在搜索引擎上的排名越靠前,就会带来更多的访问量,而流量能转化价值,因此各大网站就会争先恐后地开门欢迎搜索引擎类爬虫,以获得更多的曝光。这类爬虫不仅服务了用户,也服务了网站服务商。

2. 海量信息处理

数字时代,咨询公司可以利用爬虫技术快速获取海量信息,并可以将海量信息进行专业化处理和分析归类,从而为咨询服务提供有利的数据支撑,用更多的数据信息样本来支持更准确的决策。不仅如此,很多企业也会用爬虫来进行舆情监控,对及时发现负面舆情,做好公关危机有很大帮助。

3. 替代重复劳动力

在网络工作中会遇到很多需要大量重复劳动的工作,比如在几百台目标机器上部署类似的程序,优秀的工程师们骨子里总是带着hack精神,以机器代替人工,解放双手,写一些自动化脚本来支持日常网络中的部署、测试、运维等内容。那些能批量自动化完成一系列Web请求最终达到某种目的的程序,便属于广义上的“爬虫”。这样的爬虫代表着一种理念,科技解放人力,让人有时间去做更有价值的事。

爬虫更愿意与人为善,一边为正义大展身手的同时,爬虫也同样有着自己的个性。每一个故事中的卧底从来都是“高利用率的”,因为他们的智慧不断为其效力的一方创造惊喜和价值,这样也使得他更容易获得信任,这就是无间之道。爬虫的无间在于,化数据为商机:

1. 站在行业肩膀上的创意

总听人抱怨说创业维艰,上百家团购如今清盘后只剩几家存活,网络打车平台互相收购留一家独大,P2P互金行业因政策监管纷纷倒闭。

但也有人推陈出新,站在行业的肩膀上,用爬虫玩得风生水起。

一玩:“货比三家”的流量:

用户面对互联网上眼花缭乱的产品,会有选择困难症:

#我想买个冰箱,……到底哪个平台物美价廉?

#我想买张机票,……到底哪个平台的机票时间合适价格便宜?

#我想租个房子,链家,我爱我家,安居客……到底哪个中介提供的服务性价比最高?

当用户犹豫不决时,爬虫上场了,它爬走了各家的信息,动了别人的奶酪。

二玩:“洗牌重组”的资源

在全民健身的时代,大部分人以为健身房的年卡很划算,可是年卡到手后一年也就去了10天。原本心里盘算着健身房里那么多器械只需要花费6元/天(~=2200元/365天)的成本却变成了200元/次,莫名提升了33倍。现在想想,其实健身房就是利用“资源高闲置率”来赚钱的,嗯,健身是很难坚持的。

那怎么利用转化这些闲置资源赚钱呢,这时就到了爬虫彰显价值的时候了。

以处在风口上的共享单车为例,大街小巷的共享单车五颜六色,每种颜色代表一家公司,争前恐后想站在这个风口做那只猪。行业模式大同小异,注册-押金-扫码-骑车-计费,对用户的差异无非就在押金多少,活动区域内车多不多,单次和包月/季/年卡的计费方式。然鹅,用户在各大平台注册后,用着用着发现:

#我付押金的单车为啥附近那么少?面前别家的单车我又骑不走。

#押金要几百有点贵,不付就不能骑怎么办?

偏偏有人出奇招,利用爬虫技术做了个平台,整合了所有主流共享单车信息,用户注册后不需要付押金,只要非常少的包月费用,可以扫码任何一家单车开锁骑走。为啥能骑走?因为爬虫为你整合了你在所有共享单车上包月/季/年卡的所有权,打通了你在扫码各家单车之后对应的使用权。这样一来,不但引流走了别家平台用户,还在资源重组后赚了别人家“资源闲置”的收入。确实满足了用户需求,却也动了别人的奶酪。

2. 爬虫引发的情报战

孙子兵法有云:“知己知彼,百战不殆。” 有些企业还会利用爬虫获取同行情报来作战。盘点下近两年最俏的三大战役情报,也就是爬虫最热衷的信息:O2O大战的商户,电商大战的价格,P2P大战的风控。

O2O平台要想成功,需要更多的引入优质商户,才能吸引更多的C端用户,整个业务模式才可以转起来。因此行业内互相爬取对方销售量高的优质店铺,

爬虫不断挑战“底线”

爬虫的另一面,让人想到《无间道》里刘德华扮演的刘建明,在警察局做黑帮卧底,踏着那条红线,为黑帮效力。黑灰产用爬虫技术爆点踩着法律的边缘赚到盆满钵溢,作恶场景无处不在,两者异曲同工。

 ●   你打开某点评看到的高分店铺很可能是爬虫帮你评的;

 ●   你在各大电商平台看到的爆款也可能是爬虫刷的虚假交易;

 ●   网络投票的第一名也许是爬虫辛辛苦苦投出来的结果;

 ●   赚钱易如反掌的微博大V也许是爬虫制造的诸多僵尸粉撑起来的假象;

 ●   渠道商奖励的程序推广安装第一名也许是爬虫历下的汗马功劳;

 ●   电商平台的拉新红包总也抢不到,因为爬虫已替你抢光光;

 ●   ……

此外,由于爬虫往往比人动作快,因此还干起了囤积居奇的勾当。周董演唱会门票一票难求,可是黄牛却拿着一叠门票在演唱会门口高价出售,粉丝只能忍痛用三倍的价格去见了偶像。这样的倒卖获利非常常见,爬虫往往盯着网络可以低买高卖的物品,赚钱差价获利,比如亚航的廉价机票,春节的火车票,网站上秒杀价茅台酒,知名医院的专家预约号……这样的爬虫在他的利用下,抢占了资源,扰乱了市场。

爬虫本无错,追根究底是人为造成的。我们不能因为有人利用爬虫作恶就毁灭爬虫,但也不能任由恶意爬虫肆意生长,于是一场爬虫与反爬虫的长期对抗斗争开始了。阿里云云盾爬虫风险管理产品就是一个必然的产物。该产品可以对爬虫进行有序管理,阻止其作恶,发扬其本善。

产品建设了一整套有层次的爬虫检测模块,主要分为基础防护层、云端情报层、深度学习层,就像每个警察局和黑帮都有一套完整的信息传递和鉴别机制一样,从提供流量上自定义爬虫特征工具,到共享云端优势的行业爬虫攻击情报,再到定制贴合客户业务的深度学习算法,逐步递进,快速帮助客户打造一套量身定做的反爬虫策略体系。

e28c18195578d97d65218546956849a8b5329fb4

爬虫的多变需要辨别,云盾爬虫风险管理产品能快速甄别爬虫的行为特征,对不同的爬虫做不同的处置,该放的放,该杀的杀,遇到可疑的爬虫还可以做一个挑战或者校验,多验一次身来做最终判断。

同时,还提供了数据可视化,从不同维度展示给用户,包括数据和数据之间的关联,让用户参与爬虫特征数据和防护数据之间关系的探索,不断沟通和迭代,不仅清晰地向用户展示爬虫入侵的每一步,也提高了用户反爬虫的策略决策能力。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:

让上云更放心,让云上更安全。

官方博客
官网链接