我们身边的网络流量

本文涉及的产品
智能数据建设与治理Dataphin,200数据处理单元
简介: 和我们一起在网上冲浪的不仅有你身边的亲朋好友,还有栖息在互联网上密密麻麻的网络爬虫。差不多每5次的网络浏览里,有2次是"虚假"的网络爬虫产生的。


-更多关于数智化转型、数据中台内容请加入阿里云数据中台交流群—数智俱乐部 和关注官方微信公总号(文末扫描二维码或点此加入

-阿里云数据中台官网 https://dp.alibaba.com/index

作者:qinglianghu

一.网络流量中的善与恶

和我们一起在网上冲浪的不仅有你身边的亲朋好友,还有栖息在互联网上密密麻麻的网络爬虫。差不多每5次的网络浏览里,有2次是"虚假"的网络爬虫产生的。这些栖息在互联网上的爬虫也是有"善恶"之分的。对于那些遵守网络规定,例如我们熟知的搜索引擎"饲养"的爬虫们就是大家喜爱的。但是那些违反网络规定,通过找漏洞、钻空子赚取暴利,获取大量隐私数的就是不受我们欢迎的。
1.jpg
图1.1 2019年善恶机器和人产生流量的占比

在Imperva的《2020 Bad Bot Report 》中,我们可以看到2019年,善意的机器流量下降到了13.1%,恶意的爬虫流量相比去年(18.1%)上升到了24.1%,几乎占据了全网流量的四分之一。

二.恶意网络流量现状

1.恶意流量等级分布
恶意流量的类型可以根据爬虫程序的复杂程度来进行划分,Imperva 的报告中将其分成了3类。

  • Simple:这种一般是简单的容易发现的恶意请求,大概占总恶意请求的五分之一;
  • Moderate:这种会更换不同的网络环境,通过匿名代理的方式发出恶意请求;占总恶意请求的一半江山。
  • Sophisticated:这种在使用匿名代理的基础上会通过伪造鼠标轨迹、点击等用户交互行为来躲避检测,几乎能完全模拟人类的浏览行为。中高类型的爬虫通常还被称作APBs(Advanced persistent bots),占了7成的恶意流量。

2.jpg
图 2.1 恶意流量等级分布

连续三年,按照复杂程度的恶意流量分布非常一致,最容易检测到的简单恶意请求占比为26.3%;中等占比53.6%;复杂专业的恶意请求占比20.1%。APBs占比73.7%,略高于上一年。秒拨IP技术的发展,使得很多简单的通过IP黑名单方式限制爬虫的方式无效。

2.不同行业恶意流量分布

恶意流量问题遍布每个行业,有一些问题是某些行业独有的。比如只有登录入口的网站可能遭遇的撞库攻击,而价格爬取则主要集中在电商行业。
3.jpg
图2.2 不同行业流量分布占比

金融服务行业 连续第二年以47.7%的恶意流量占比占据所有行业受恶意流量攻击的头名。大部分恶意流量来自撞库攻击,它们的目的是获取这些公司的用户隐私信息。

教育行业 恶意流量占45.7%,爬虫程序一般用于获取论文、学生选课以及获取账号。

市场交易相关行业 这是另外一个受到大量恶意流量攻击的行业,和电子商务类似这部分的爬虫主要用于价格信息和用户账号的获取。

政府 流向政府网站的流量中有37.5%的恶意流量,这部分爬虫基本上爬取的是商业注册信息和选举信息。

非营利性组织 使用非盈利性组织的捐赠页面来验证非法手段得到的金融账号信息的有效性,这部分流量的攻击对于非盈利组织的服务器来说是难以处理的。

航空旅游业 航空旅游业30.5%的恶意流量组成比较复杂,这其中不仅有来自竞争对手的直接爬取,还有一部分来自第三方生态公司。未经授权的代理商、竞争对手以及二手黄牛党使用高级爬虫爬取票价,这不仅增加了普通用户的交易成本,造成了很多客户的投诉,而且爬虫程序还会带来服务器响应速度变慢甚至瘫痪的问题。此外,旅行公司的用户账号也面临被撞库攻击的问题,黑灰产会试图盗取用户账户中的里程积分来牟取暴利。

3.恶意流量来源

七成的恶意流量的来自大型数据中心(云服务提供商),相较于去年略有下降。恶意流量中来自家用网络的比例连续三年增长,又之前的22.7%上涨到了27.8%,来自移动网络的恶意流量占比不高仅占2.3%。
4.jpg
图2.3 2019年恶意流量来源分布情况

从国家角度来看,美国已经连续六年占据榜首,不过相较于去年的53.4%已经下降到了45.9%。中国以4.8%占据第四。
5.jpg
图2.4 2019年恶意流量来源国家分布情况

在抵御恶意流量最多的国家分布中,俄罗斯以21.1%的占比排名第一,中国排名第二。这主要得益于这些国家针对外国网络的封禁。
6.jpg
图2.5 2019年不同多家对恶意流量阻挡情况

三.原因分析与应对方法

2019年网络中恶意的机器流量已经达到全网流量的四分之一。不仅如此,恶意机器流量的发展已经进入了下一个阶段,它们正试图改善自己的形象,使得自己看起来合法。黑灰产运营商正在建立专业的业务,他们从其他网站上"获取"数据、打包数据,并向愿意购买的公司提供数据。所有这些都被巧妙的包装成了“智能商业”的服务。

恶意网络流量快速发展的原因,大概可以归结为如下几点:

1.市场导向

首先,黑灰产有较大的利益可图。目前它们已经拥有了专业外观的网站,提供被称为定价情报、金融替代数据或竞争洞察的商业情报服务。通常,这些企业提供专注于特定行业的数据产品。随着市面上可以购买爬虫爬取的数据越来越多,行业内企业间的竞争压力越来越大。没有企业希望自己,因为信息获取不全而失败。
8.jpg
图3.1 某平台的各种数据榜单

同时,随着会员制度不断的完善和普及,每个用户的账户内都有一些可以兑换或者转移的数字货币或者积分、礼物。来自数据泄露的账户密码与会员制度的增长相结合,为恶意撞库提供了便利。恶意机器程序未经许可从网站上爬取数据(例如定价、库存等)以获得竞争优势。爬取的个人隐私数据甚至会被不法分子利用,从事欺诈、盗窃等违法犯罪活动。

其次,在不同领域对于流量的需求也日益增大。在中国,粉丝为自己喜欢的明星购买流量打榜已经是大家公认的手段。在美国,机器操控的社交媒体账号设置能干预选举的投票。

最后,现在招聘的岗位中出现了很多针对数据爬取相关的岗位,且有着很高的待遇。在这种大环境下,很难看到恶意机器流量问题的消失。

2.灰色地带的网络爬虫

恶意机器流量大部分来自网络爬虫,爬虫作为一种计算机技术就决定了它的中立性,因此爬虫本身在法律上并不被禁止,但是利用爬虫技术获取数据这一行为是具有违法甚至是犯罪的风险的。

在2019年11月的hiQ使用爬虫爬取Linkedin上数据的案件中。法院最终裁定的结果是:被告领英(LinkedIn)公司不得阻止hiQ公司进入、复制并使用LinkedIn网站的公开信息,亦不得采取法律或技术措施进行阻碍,若有则必须在24小时内称除。

下面几种手段或许能在一定程度上缓解恶意爬虫带来的负面影响。

禁止一些过时的User Agent请求头,一般来说爬虫程序的请求是随机生成,且有很多是早些年编写的代码,这部分请求的UA已经过时了。

禁止一些代理服务的提供商,很多爬虫使用的是市面上一些免费活着廉价的第三方的代理服务。禁止这些代理的请求或许是不错的选择。

管理好自己网站的所有访问源。包括网站的移动web版、H5小程序版本,还有分享到第三方平台的链接。
分析网站的请求日志

记录分析网站登陆失败的日志。

参考文献:
[1] The National Law Review
[2] Imperva 2020 Bad Bot Report


数据中台是企业数智化的必经之路,阿里巴巴认为数据中台是集方法论、工具、组织于一体的,“快”、“准”、“全”、“统”、“通”的智能大数据体系。

目前正通过阿里云对外输出系列解决方案,包括通用数据中台解决方案零售数据中台解决方案金融数据中台解决方案互联网数据中台解决方案政务数据中台解决方案等细分场景。

其中阿里云数据中台产品矩阵是以Dataphin为基座,以Quick系列为业务场景化切入,包括:

官方站点:
数据中台官网 https://dp.alibaba.com
钉钉沟通群和微信公众号
数据中台钉钉群二维码2.jpg

相关实践学习
使用CLup和iSCSI共享盘快速体验PolarDB for PostgtreSQL
在Clup云管控平台中快速体验创建与管理在iSCSI共享盘上的PolarDB for PostgtreSQL。
AnalyticDB PostgreSQL 企业智能数据中台:一站式管理数据服务资产
企业在数据仓库之上可构建丰富的数据服务用以支持数据应用及业务场景;ADB PG推出全新企业智能数据平台,用以帮助用户一站式的管理企业数据服务资产,包括创建, 管理,探索, 监控等; 助力企业在现有平台之上快速构建起数据服务资产体系
相关文章
|
存储 运维 监控
一篇文章带你遨游网络流量分析
无论是大数据、人工智能、云计算还是物联网、工业互联网,这些技术的快速发展都离不开网络。不断涌现的新技术在重塑业务应用的同时,也带来了网络流量的爆炸性增长。面对越来越多的线上业务,网络、应用与数据的安全暴露面也越来越大,且相互交错。如何保障网络高效、稳定、安全运行?如何使用流量分析来解决这些问题,这篇文章带你了解。
|
云安全 安全 索引
周杰伦等名人网站频被挂马 粉丝上网需警惕
据瑞星“云安全”系统监测,4月28日,“周杰伦中文网”、“中国保险网”、“玉林百科”等网站被黑客挂马,用户浏览这些网站后,会感染木马病毒:Trojan.DL.Win32.Undef.dyf(安德夫木马下载器),导致用户个人信息被盗。
961 0
|
监控 安全 网络安全
|
安全 JavaScript
手机上网:警惕流量“黑洞”
本文讲的是手机上网:警惕流量“黑洞”,在“2017年第二季度IT威胁演进”研究报告中,我就发现在前20名移动恶意软件程序排名中,有几种常见的木马程序,都在使用WAP计费从用户窃取资金。WAP计费是一种移动支付形式,可以将费用直接从用户手机账单中扣除,所以攻击者不需要盗窃受害者的用户名和密码。
1848 0
|
安全 网络安全 数据中心
秒极黑洞 解决大规模DDoS攻击导致的“躺枪”
本文讲的是 秒极黑洞 解决大规模DDoS攻击导致的“躺枪”,对于一个数据中心来说,大流量DDoS攻击常常带来的一个额外的不良结果是“连带效应” (collateral effect),即黑客对A用户的攻击会影响到B甚至更多用户的业务,很多网站业务受到影响而无法提供正常业务;
2125 0