在航空公司官网、OTA网站和航旅App,充斥着来自搜索引擎、虚拟助手和聊天机器人等来源的自动化流量。但是,与这种高效的BOT背道而驰的,是更为猖獗的恶意BOT流量。
客户关键词:
中国三大航空集团之一
日均3000+航班通行全球
客货运输量常年稳居全球Top10
10万高价的背后:谁在占座?
2020年3月起,随着海外疫情扩散,回国航班骤减,国际机票价格水涨船高,从2-4万的经济舱全价炒到10万元的实际成交价。
越是旺季,越紧俏的航班,被虚占的座位相对就多,随着欧美回国机票越来越稀缺,“虚占座位”的操作也越来越“猖狂”。
攻击者挑选座位数已经所剩不多的航班,用随便一个护照信息订下这个航班的机票“虚占座位”,在航企允许的账期内,高价寻找有真实购票意向的客户,再取消虚占的订座,同时用真实客户的护照信息买入。
上述过程看似简单,但要完美实现它,靠的是数以千万计的恶意爬虫。
据阿里云爬虫风险管理团队对某航司虚占座位现象的数据分析,国外疫情爆发最为严峻的日子里,机票查询接口单日请求最高时超过1亿次,而其中超过9000万以上的请求都来自机器流量。去年5月,该航司国际航班回国的多条航线上一度出现占座指数超出正常范围50多倍的情况,查票接口请求量更是日常的成百上千倍,不仅造成了一票难求的局面,也给航司本身的带宽/服务器支出带来了严重消耗。
“在这种流量比例下,正常用户想要从机器手上抢到一张票几乎是Mission Impossible。”阿里云安全工程师坦言,黄牛脚本几千次/秒且昼夜不停的高频查询给航司服务器的压力是很大的,正常用户可能连加载页面都很困难,更别提买到票了。“国外疫情最严峻的那段时间,航司的管理后台经常会出现身份信息捏造的“不存在”乘客,严重降低正常乘客的购票概率。”
职业爬虫在进化:擅长隐身与强对抗
在航空领域,虚假下单和虚占座位已经成了头号业务风险。要通过虚占座位来取得利益,攻击者需要持续不停地获取最新的航线、价格、时间等关键信息,以保证能在第一时间对有空余座位的热点航线下手。这一过程漫长而繁琐,参与其中的恶意BOT在专业黑灰产技术团伙的指挥下,具备很强的隐蔽性和持续对抗能力。
一份国外最新的恶意BOT报告显示,航旅业高居“高级可持续性BOT”最为泛滥的行业之首,达到59.7%,相较于简单爬虫,他们生命周期更长、行为逻辑复杂度更高、更难被检测和缓解。
根据阿里云安全的监测,在该航司与攻击者的对抗中,攻击者通过组合利用自动进行攻击的软件程序和各种自动化工具,可以轻松而低成本地创建、购买和修改BOT,因此进化速度快,在整个票务信息获取和占座流程中,恶意BOT在各个环节尝试绕过检测和防护,其行为、目标、复杂程度和差异很大。
从业务流程上主要分为下列三个阶段:
· 注册登录环节:这一阶段的核心目的是获取足够多的账号以得到有效的登录态,再进行后续的业务流程,因此垃圾注册和撞库是最核心的风险;
·航线信息查询:攻击者遍历所有航班动态并不停刷新,获取最新价格、时间、余票张数等重要数据资产,这一环节的恶意BOT数量最大、持续时间最长、具备一定的伪装性并擅长高强度对抗;
值得注意的是,在航空公司日常数据资产防护中,应对三方信息爬取,这也是最多、最难缠的一类恶意BOT行为,是拉高带宽成本和服务器压力的主因
·模拟下单与订单追加:攻击者使用driver/模拟器模拟人类行为,下单但规定时间内不支付,达到占座目的。这类爬虫具备较强的“反侦查”意识,且会持续检测订单有效性,并在支付时间结束之前重复上述模拟下单动作,导致座位被长期占用。
随着黑灰产的专业性在利益驱动下迅速提升,爬虫团伙逐渐向着产业化运作,从下游的技术到上游的获利,分工明确,协同高效,更强大的对抗能力和更不易察觉的隐蔽性成为恶意BOT的主要特点。
实际上,爬虫危害性巨大的核心原因,是其能够以快速、持续、大量的模式形成伤害,加之背后明确的变现思路和方法,不仅扰乱市场秩序,而且在日常运维中严重推高维护服务器稳定性和防范数据泄露的人力物力成本,一般的公司缺乏足够的人员和经验对抗不断进化的爬虫和其背后的专业黑灰产。
爬虫对抗持久战:阿里云防爬防占座方案
航空业防爬防占座是个持续对抗的过程。阿里云安全为该航司定制防爬防占座方案,针对性识别和缓解线上机票交易场景下的注册、登陆、航线查询、票价查询、余票查询、下单占座不支付、订单追加全流程的恶意BOT。
针对垃圾注册与撞库登陆:
·结合指纹、行为、上下文、SDK签名、时序、环境等特征进行BOT精细化识别,并通过拦截、限速和人机识别二次校验等手段应对垃圾注册和撞库登陆;
·结合情报信息,对有航旅业业务针对性的恶意BOT实行异步处置,标记出来“秋后算账”,从业务上做处罚或者用户分级,让爬虫防护不止于对抗;
针对核心票务数据被爬取:
·一方面,通过多维度精细化限速+JS加签+行为分析,初步压制刷票流量;
·另一方面,动态IP爬取行为检测、时序异常分析、AI智能防御应对复杂和变异的攻击;
·考虑到攻击团伙的利益较大,直接拦截可能引起激烈的对抗,基于专家经验推荐假数据方案,通过多种指纹和算法识别到的爬虫请求进行打标后通知源站,源站给爬虫返回假数据进行欺骗;
下单接口细分设备属性:
·由于对抗激烈,网页端针对业务流程定制了深度学习模型,辅助滑块校验防护下单接口;
·APP端接入SDK,通过SDK签名过滤爬虫请求。
识别维度的丰富性和处置方式的灵活性是恶意BOT管理的核心能力。在针对不同场景的防控方案上,专家的经验同样非常重要,尤其面对航空业“高级可持续恶意BOT”泛滥的现象。
阿里云的BOT管理通过客户端指纹识别、AI智能防御、爬虫行为分析等核心能力来进行识别,结合云上协同防御情报信息和多年BOT处置积累的专家经验,帮助用户有效抵御来自复杂BOT的恶意流量,不仅是航空业,各恶意BOT泛滥的“重灾区”行业都能得到有效的缓解。
7000+设备指纹,支持智能溯源
超过7000种设备环境、流量、报文、行为指纹采集和上报,经过基于专家经验训练的决策引擎生成指纹,用于标注客户端身份和刻画流量基线,通过指纹打标建立和训练模型,生成防护策略,并可进一步利用云上优势圈定BOT背后攻击者的手法甚至攻击团伙。
多维BOT行为分析引擎,比BOT更了解BOT
动态IP爬取行为检测模型结合时序异常分析模型,基于正常用户的会话序列特征建模,实现BOT行为动态分析,筛选出时序异常与行为异常的爬虫会话,在关键业务节点(如下单、支付)上对异常会话进行拦截或验证。
基于机器学习模型预测的逻辑更难被破解,降低对抗强度,同时极大降低校验手段(如验证码)对正常用户的打扰。
协同情报+AI智能+Experts,三管齐下处置变异攻击
共享云上1500万+来源IP、140万+恶意BOT情报等协同防御信息和黑名单信息,结合设备指纹特征与爬虫行为特征,多维度刻画流量基线。整合专家经验的决策引擎,结合业务逻辑双管齐下,实时决策与异步决策按需调用,实现处置方式的自动下发与自动对抗。
云原生便捷接入,全面支持混合云
·Bot管理功能以模块形式集成在阿里云WAF中,接入转发架构跟WAF完全一样,接入便捷;
·全面支持网页、H5、原生APP、API、公众号、小程序等全场景web应用防护;
·支持混合云/多云部署、独享集群部署、阿里云ECS/SLB/CDN用户无需额外部署,一键开启;
·源站可以是任意公有云服务器/负载均衡、任意IDC主机、本地机房等。
客户价值:
·高强度占座对抗中,成功自动化防护黑灰产15分钟级别的对抗;
·疫情爆发极端抢票情况下,该航司的占座指数从5万压制到200,下降99.6%,回归正常范围;
·日常业务风险得到稳定的有效收敛,第三方转卖平台的数据准确性造成较大干扰,转卖受阻;
·机器流量识别与分类精细,准确性高,未对正常业务造成任何干扰;
·刷票接口日均流量下降90%,极大缓解了服务器压力,降低了带宽支出。