我们身边的网络流量

简介: 和我们一起在网上冲浪的不仅有你身边的亲朋好友,还有栖息在互联网上密密麻麻的网络爬虫。差不多每5次的网络浏览里,有2次是"虚假"的网络爬虫产生的。


-更多关于数智化转型、数据中台内容请加入阿里云数据中台交流群—数智俱乐部 和关注官方微信公总号(文末扫描二维码或点此加入

-阿里云数据中台官网 https://dp.alibaba.com/index

作者:qinglianghu

一.网络流量中的善与恶

和我们一起在网上冲浪的不仅有你身边的亲朋好友,还有栖息在互联网上密密麻麻的网络爬虫。差不多每5次的网络浏览里,有2次是"虚假"的网络爬虫产生的。这些栖息在互联网上的爬虫也是有"善恶"之分的。对于那些遵守网络规定,例如我们熟知的搜索引擎"饲养"的爬虫们就是大家喜爱的。但是那些违反网络规定,通过找漏洞、钻空子赚取暴利,获取大量隐私数的就是不受我们欢迎的。
1.jpg
图1.1 2019年善恶机器和人产生流量的占比

在Imperva的《2020 Bad Bot Report 》中,我们可以看到2019年,善意的机器流量下降到了13.1%,恶意的爬虫流量相比去年(18.1%)上升到了24.1%,几乎占据了全网流量的四分之一。

二.恶意网络流量现状

1.恶意流量等级分布
恶意流量的类型可以根据爬虫程序的复杂程度来进行划分,Imperva 的报告中将其分成了3类。

  • Simple:这种一般是简单的容易发现的恶意请求,大概占总恶意请求的五分之一;
  • Moderate:这种会更换不同的网络环境,通过匿名代理的方式发出恶意请求;占总恶意请求的一半江山。
  • Sophisticated:这种在使用匿名代理的基础上会通过伪造鼠标轨迹、点击等用户交互行为来躲避检测,几乎能完全模拟人类的浏览行为。中高类型的爬虫通常还被称作APBs(Advanced persistent bots),占了7成的恶意流量。

2.jpg
图 2.1 恶意流量等级分布

连续三年,按照复杂程度的恶意流量分布非常一致,最容易检测到的简单恶意请求占比为26.3%;中等占比53.6%;复杂专业的恶意请求占比20.1%。APBs占比73.7%,略高于上一年。秒拨IP技术的发展,使得很多简单的通过IP黑名单方式限制爬虫的方式无效。

2.不同行业恶意流量分布

恶意流量问题遍布每个行业,有一些问题是某些行业独有的。比如只有登录入口的网站可能遭遇的撞库攻击,而价格爬取则主要集中在电商行业。
3.jpg
图2.2 不同行业流量分布占比

金融服务行业 连续第二年以47.7%的恶意流量占比占据所有行业受恶意流量攻击的头名。大部分恶意流量来自撞库攻击,它们的目的是获取这些公司的用户隐私信息。

教育行业 恶意流量占45.7%,爬虫程序一般用于获取论文、学生选课以及获取账号。

市场交易相关行业 这是另外一个受到大量恶意流量攻击的行业,和电子商务类似这部分的爬虫主要用于价格信息和用户账号的获取。

政府 流向政府网站的流量中有37.5%的恶意流量,这部分爬虫基本上爬取的是商业注册信息和选举信息。

非营利性组织 使用非盈利性组织的捐赠页面来验证非法手段得到的金融账号信息的有效性,这部分流量的攻击对于非盈利组织的服务器来说是难以处理的。

航空旅游业 航空旅游业30.5%的恶意流量组成比较复杂,这其中不仅有来自竞争对手的直接爬取,还有一部分来自第三方生态公司。未经授权的代理商、竞争对手以及二手黄牛党使用高级爬虫爬取票价,这不仅增加了普通用户的交易成本,造成了很多客户的投诉,而且爬虫程序还会带来服务器响应速度变慢甚至瘫痪的问题。此外,旅行公司的用户账号也面临被撞库攻击的问题,黑灰产会试图盗取用户账户中的里程积分来牟取暴利。

3.恶意流量来源

七成的恶意流量的来自大型数据中心(云服务提供商),相较于去年略有下降。恶意流量中来自家用网络的比例连续三年增长,又之前的22.7%上涨到了27.8%,来自移动网络的恶意流量占比不高仅占2.3%。
4.jpg
图2.3 2019年恶意流量来源分布情况

从国家角度来看,美国已经连续六年占据榜首,不过相较于去年的53.4%已经下降到了45.9%。中国以4.8%占据第四。
5.jpg
图2.4 2019年恶意流量来源国家分布情况

在抵御恶意流量最多的国家分布中,俄罗斯以21.1%的占比排名第一,中国排名第二。这主要得益于这些国家针对外国网络的封禁。
6.jpg
图2.5 2019年不同多家对恶意流量阻挡情况

三.原因分析与应对方法

2019年网络中恶意的机器流量已经达到全网流量的四分之一。不仅如此,恶意机器流量的发展已经进入了下一个阶段,它们正试图改善自己的形象,使得自己看起来合法。黑灰产运营商正在建立专业的业务,他们从其他网站上"获取"数据、打包数据,并向愿意购买的公司提供数据。所有这些都被巧妙的包装成了“智能商业”的服务。

恶意网络流量快速发展的原因,大概可以归结为如下几点:

1.市场导向

首先,黑灰产有较大的利益可图。目前它们已经拥有了专业外观的网站,提供被称为定价情报、金融替代数据或竞争洞察的商业情报服务。通常,这些企业提供专注于特定行业的数据产品。随着市面上可以购买爬虫爬取的数据越来越多,行业内企业间的竞争压力越来越大。没有企业希望自己,因为信息获取不全而失败。
8.jpg
图3.1 某平台的各种数据榜单

同时,随着会员制度不断的完善和普及,每个用户的账户内都有一些可以兑换或者转移的数字货币或者积分、礼物。来自数据泄露的账户密码与会员制度的增长相结合,为恶意撞库提供了便利。恶意机器程序未经许可从网站上爬取数据(例如定价、库存等)以获得竞争优势。爬取的个人隐私数据甚至会被不法分子利用,从事欺诈、盗窃等违法犯罪活动。

其次,在不同领域对于流量的需求也日益增大。在中国,粉丝为自己喜欢的明星购买流量打榜已经是大家公认的手段。在美国,机器操控的社交媒体账号设置能干预选举的投票。

最后,现在招聘的岗位中出现了很多针对数据爬取相关的岗位,且有着很高的待遇。在这种大环境下,很难看到恶意机器流量问题的消失。

2.灰色地带的网络爬虫

恶意机器流量大部分来自网络爬虫,爬虫作为一种计算机技术就决定了它的中立性,因此爬虫本身在法律上并不被禁止,但是利用爬虫技术获取数据这一行为是具有违法甚至是犯罪的风险的。

在2019年11月的hiQ使用爬虫爬取Linkedin上数据的案件中。法院最终裁定的结果是:被告领英(LinkedIn)公司不得阻止hiQ公司进入、复制并使用LinkedIn网站的公开信息,亦不得采取法律或技术措施进行阻碍,若有则必须在24小时内称除。

下面几种手段或许能在一定程度上缓解恶意爬虫带来的负面影响。

禁止一些过时的User Agent请求头,一般来说爬虫程序的请求是随机生成,且有很多是早些年编写的代码,这部分请求的UA已经过时了。

禁止一些代理服务的提供商,很多爬虫使用的是市面上一些免费活着廉价的第三方的代理服务。禁止这些代理的请求或许是不错的选择。

管理好自己网站的所有访问源。包括网站的移动web版、H5小程序版本,还有分享到第三方平台的链接。
分析网站的请求日志

记录分析网站登陆失败的日志。

参考文献:
[1] The National Law Review
[2] Imperva 2020 Bad Bot Report


数据中台是企业数智化的必经之路,阿里巴巴认为数据中台是集方法论、工具、组织于一体的,“快”、“准”、“全”、“统”、“通”的智能大数据体系。

目前正通过阿里云对外输出系列解决方案,包括通用数据中台解决方案零售数据中台解决方案金融数据中台解决方案互联网数据中台解决方案政务数据中台解决方案等细分场景。

其中阿里云数据中台产品矩阵是以Dataphin为基座,以Quick系列为业务场景化切入,包括:

官方站点:
数据中台官网 https://dp.alibaba.com
钉钉沟通群和微信公众号
数据中台钉钉群二维码2.jpg

相关实践学习
AnalyticDB PostgreSQL 企业智能数据中台:一站式管理数据服务资产
企业在数据仓库之上可构建丰富的数据服务用以支持数据应用及业务场景;ADB PG推出全新企业智能数据平台,用以帮助用户一站式的管理企业数据服务资产,包括创建, 管理,探索, 监控等; 助力企业在现有平台之上快速构建起数据服务资产体系
相关文章
|
存储 数据安全/隐私保护
STM32实战项目—密码锁
本文完整详细地介绍了一个密码锁项目的要求,设计思路,程序实现,问题总结和成果展示内容。
789 2
STM32实战项目—密码锁
|
小程序 Python
用 Python 制作一个桌面宠物,好玩!
用 Python 制作一个桌面宠物,好玩!
351 0
|
人工智能 弹性计算 运维
操作系统控制台,让运维更简单!
操作系统控制台初体验,运维智能666!
484 37
操作系统控制台,让运维更简单!
|
存储 负载均衡 云计算
抖音服务器是什么样的
抖音服务器采用分布式云计算架构,遍布全国多个数据中心,如北上广、四川和贵州等地,利用高带宽、云集群并发及OSS、CDN、SLB等技术,确保大量用户同时流畅观看视频。这不仅需要强大的服务器群支持,还需精准的负载均衡与内容分发网络,保障用户体验。
771 1
|
机器学习/深度学习 人工智能 搜索推荐
AI与未来医疗:重塑健康的双刃剑
【10月更文挑战第6天】 人工智能作为现代科技的巅峰之作,已经渗透进我们生活的方方面面。从语音助手到自动驾驶,AI不仅改变了我们的日常,更在各个专业领域,特别是医疗行业,扮演着愈发重要的角色。本文探讨了AI在未来医疗中的应用及其潜在影响,揭示了这把“双刃剑”的机遇与挑战。
451 1
|
Linux Python Windows
在VS2022上安装pygame模块
【10月更文挑战第4天】这是在VS2022中安装Pygame模块的步骤:首先确认已安装Python环境,并通过“工具”->“Python”->“Python环境”进行检查;接着打开VS2022集成终端;然后输入`pip install pygame`安装Pygame;最后,在Python脚本中导入Pygame验证安装是否成功。如遇问题,请检查网络连接、权限及Python环境配置。对于权限问题,需以管理员身份运行命令提示符或终端。某些系统可能需要安装额外的系统级依赖项。
588 5
|
存储 算法 数据安全/隐私保护
基于A律压缩的PCM脉冲编码调制通信系统simulink建模与仿真
本项目展示了一种基于MATLAB 2022a的脉冲编码调制(PCM)算法,用于将模拟信号转换为数字信号。A律压缩是非均匀量化方法之一,适用于语音信号编码,能够提高信噪比和编码效率。核心代码已提供,并附有详细中文注释和操作视频。A律压缩通过调整量化间隔来适应人耳的听觉特性,减少量化噪声,实现高质量的语音通信。此技术广泛应用于电话通信、VoIP和数字音频处理等领域。
|
运维 数据安全/隐私保护 网络协议
【网络建设与运维】2024年河北省职业院校技能大赛中职组“网络建设与运维”赛项例题(十)
【网络建设与运维】2024年河北省职业院校技能大赛中职组“网络建设与运维”赛项例题(十)
【网络建设与运维】2024年河北省职业院校技能大赛中职组“网络建设与运维”赛项例题(十)
|
人工智能 前端开发 开发者
未来后端开发的趋势及挑战
随着技术的不断进步,后端开发领域也在不断演进。本文将探讨未来后端开发的发展趋势和可能面临的挑战,带领读者深入了解这一技术领域的未来发展方向。
433 5
|
安全 Unix Linux
操作系统(2)----操作系统的体系结构
操作系统(2)----操作系统的体系结构
508 0