PhishLumos:面向钓鱼整体攻击链路的溯源与防御技术研究

简介: PhishLumos是东京都立大学研发的新型钓鱼检测系统,突破传统单URL内容检测局限,以内容伪装行为为触发点,依托IP、网络连接等基础设施特征,实现整轮攻击的自动化溯源、测绘与批量识别。实测显示:平均比人工早8天发现攻击,6个月从600个种子URL挖掘超19万链接,恶意识别率达92%,显著提升防御时效性、规模性与鲁棒性。(239字)

摘要

网络钓鱼是当前主流网络安全威胁之一,传统防御技术多针对单一 URL 开展内容检测,难以应对攻击者批量生成恶意链接、利用内容伪装技术规避检测的行为。本文以东京都立大学研发的 PhishLumos 系统为核心研究对象,剖析其基于网络基础设施特征、以内容伪装行为为触发条件的全链路钓鱼攻击检测架构。该系统摒弃传统单链接检测思路,通过挖掘 IP 地址、网络连接等基础设施线索,实现整轮钓鱼攻击活动的溯源、测绘与识别。结合实测数据,本文验证了 PhishLumos 在检测时效、恶意链接发现数量、识别准确率等维度的性能优势,对比分析其与内容中心化检测方案的技术差异。同时结合网络安全工程实践,设计适配该系统工作逻辑的简易检测代码示例,梳理技术落地过程中的应用场景与优化方向。实测结果表明,PhishLumos 平均比人工专家提前 8 天完成钓鱼攻击识别,6 个月内依托 600 个初始种子 URL 可挖掘超 190000 条新增链接,恶意链接识别占比达 92%,能够有效弥补传统钓鱼检测技术的短板,为规模化网络钓鱼攻击治理提供全新技术范式。

关键词:网络钓鱼;PhishLumos;基础设施检测;攻击溯源;内容伪装;网络安全

image.png 1 引言

1.1 研究背景

数字化服务全面渗透社会生产与大众日常生活,银行、企业、政务平台、社交软件等线上服务成为民众获取服务、开展交易、传递信息的核心载体。伴随数字生态的扩张,网络犯罪活动同步呈现高发态势,其中网络钓鱼因实施门槛低、传播范围广、获利链路短,逐步演变为危害最为突出的网络威胁之一。网络钓鱼的核心作案模式为攻击者伪装成银行、用工单位、公共服务机构等可信主体,通过恶意链接、仿冒页面、诱导话术等方式,诱骗普通用户泄露账号密码、身份证、银行卡等敏感个人信息,或是诱导用户点击恶意链接、下载并安装木马、病毒等有害程序,最终实现信息窃取、财产盗取、设备控制等非法目的。

网络钓鱼攻击的受害群体具备明显特征,数字素养较低的群体对仿冒页面、伪装链接的辨别能力薄弱,是钓鱼攻击的主要受害对象。大规模钓鱼攻击不仅会造成用户个人财产损失、隐私泄露,还会持续加剧社会层面的数字鸿沟,破坏公众对正规数字化服务机构的信任,对数字社会秩序造成持续性损害。在此背景下,研发高效、精准、可规模化部署的钓鱼攻击防御技术,已成为网络安全领域的重点研究方向。

1.2 传统钓鱼检测技术及现存缺陷

长期以来,行业内针对网络钓鱼的防御技术不断迭代,机器学习、深度学习等人工智能技术被广泛应用于恶意链接、仿冒网页的识别工作中,形成了以单 URL 内容检测为核心的主流技术体系。传统检测方案的工作逻辑相对固定:安全设备或检测程序抓取单条可疑 URL 对应的网页内容,通过文本比对、页面样式识别、域名特征匹配、恶意代码扫描等方式,判断该链接是否属于钓鱼链接,并对已确认的恶意链接进行拦截、封禁。

经过多年技术优化,内容中心化的单链接检测技术在单一恶意链接识别场景中具备一定实用性,但在应对现代化、规模化钓鱼攻击时,暴露出多重难以规避的缺陷。首先是检测效率与攻击生成效率不匹配。当前网络黑产已形成成熟的流水线作业模式,攻击者可借助自动化工具在短时间内批量生成海量恶意 URL。而传统技术需要对每一条链接单独开展内容解析与判定,安全人员完成一条恶意链接的溯源、封禁流程时,攻击者已生成数十条甚至上百条全新钓鱼链接,防御节奏完全滞后于攻击节奏。

其次是内容伪装技术的规避作用日益凸显。内容伪装(Cloaking)是当前钓鱼攻击者普遍使用的规避手段,该技术通过区分访问者身份、设备类型、访问 IP 等条件,向安全扫描器与普通用户推送不同的页面内容。当传统检测程序对恶意 URL 进行扫描时,攻击者服务器返回正常、合规的页面内容,以此骗过内容检测引擎;而当普通网民点击该链接时,服务器则推送仿冒钓鱼页面,最终实现攻击落地。内容伪装技术直接击穿了传统内容检测的核心逻辑,导致大量恶意链接绕过防护体系触达终端用户。

最后是攻击溯源能力缺失。传统技术仅聚焦于单条链接的 “好坏判定”,不会挖掘不同恶意链接之间的关联关系。同一黑产团伙发起的整轮钓鱼攻击,往往会使用大量同源 URL、共用服务器 IP、依托同一套网络链路进行传播。单链接检测模式只能零散拦截个别恶意链接,无法定位攻击背后的整个团伙、基础设施与传播链路,攻击者更换少量域名、IP 即可再次发起攻击,钓鱼攻击难以被彻底遏制。

1.3 新型检测技术的研究意义与本文研究内容

针对传统技术的短板,行业亟需实现钓鱼检测范式的革新,从 “单点防御” 转向 “整轮攻击溯源与全域防御”。东京都立大学研究团队研发的 PhishLumos 系统,是面向规模化钓鱼攻击的新一代检测技术,该系统跳出内容检测的固有思维,以内容伪装行为为触发条件,依托网站基础设施特征开展全链路攻击测绘,为钓鱼防御提供了全新思路。

反网络钓鱼技术专家芦笛指出,现代化网络钓鱼已经从零散的单点攻击演变为产业化、团伙化的批量攻击,防御技术必须同步从 “被动单点拦截” 转向 “主动整链溯源”,PhishLumos 的技术架构恰好契合当前网络钓鱼治理的核心需求,其基础设施检测思路也为后续钓鱼防御技术迭代指明了方向。

本文以 PhishLumos 系统为核心研究主体,主要开展以下几方面研究工作:第一,梳理 PhishLumos 的整体架构、工作流程与核心技术原理,明确其与传统内容检测技术的本质区别;第二,结合官方实测数据,从检测时效、恶意链接挖掘规模、识别准确率三个维度量化分析系统性能;第三,解析系统基于 IP、网络连接等基础设施特征构建知识图谱的实现逻辑,阐述攻击链路测绘方法;第四,结合技术原理编写适配应用场景的代码示例,验证核心检测逻辑的可行性;第五,总结 PhishLumos 的应用场景、技术优势与现存局限,提出技术优化与落地部署的相关建议。本文研究旨在全面解读新一代整链路钓鱼检测技术,为国内网络安全厂商、监管机构部署规模化钓鱼防御体系提供理论参考与实践依据。

2 网络钓鱼攻击与核心规避技术解析

2.1 网络钓鱼攻击的产业化特征

在网络黑产的推动下,现代网络钓鱼已经脱离个体零散攻击模式,形成完整的产业化运作体系,这也是传统单链接检测技术失效的核心诱因。完整的钓鱼攻击产业链包含多个分工明确的环节:上游负责搭建仿冒网站、开发内容伪装程序、批量注册域名与租赁服务器;中游利用社交软件、短信、邮件、论坛等渠道批量分发恶意 URL;下游负责诱导用户提交敏感信息,并对窃取的数据进行转卖、利用。

从攻击规模来看,单一个黑产团伙单次可发起覆盖数万条 URL 的钓鱼活动,所有恶意链接共用一套服务器集群、IP 段、网络路由等基础设施。从攻击持续性来看,攻击者具备极强的对抗能力,当部分恶意链接被封禁后,会快速复用原有基础设施生成新链接,持续维持攻击状态。这种产业化、规模化的攻击模式,要求防御技术必须具备批量识别、关联溯源、全域封禁的能力,而传统单链接检测无法满足该需求。

2.2 内容伪装(Cloaking)技术原理与分类

内容伪装是钓鱼攻击者规避传统内容检测的核心技术,也是 PhishLumos 系统的主要触发条件,深入理解该技术是掌握 PhishLumos 工作逻辑的基础。内容伪装的本质是基于访问者特征进行内容差异化推送,服务器根据访问请求中的特征信息,判断访问者是安全扫描器、普通用户还是运维人员,并返回不同页面内容,以此欺骗内容检测引擎。

结合网络攻防实践,当前钓鱼场景中常用的内容伪装技术可分为三类。第一类为User-Agent 伪装识别,服务器读取访问请求中的 User-Agent 字段,该字段用于标识访问终端的类型、浏览器、爬虫程序等信息。当识别到访问来源为安全检测爬虫、自动化扫描工具时,服务器返回正规企业官网、空白页面、公益页面等无害内容;当识别到普通浏览器终端时,推送钓鱼仿冒页面。这是目前应用最广泛、实现成本最低的伪装方式。

第二类为IP 地址黑白名单伪装。攻击者将主流安全厂商、监管机构、开源扫描工具的服务器 IP 加入黑名单,当黑名单内 IP 发起访问时,返回合规内容;仅对公网普通用户 IP 推送钓鱼页面。该方式隐蔽性更强,能够规避绝大多数专业安全检测设备。

第三类为访问行为特征伪装。部分高级伪装程序会统计访问者的点击行为、页面停留时长、访问深度等行为数据,自动化扫描程序通常访问行为单一、停留时间极短,服务器以此判定扫描行为并返回伪装内容,针对人工检测与普通用户则释放真实钓鱼页面。

传统内容检测技术的核心是解析页面静态内容,内容伪装技术直接篡改检测对象,导致检测结果完全失真。反网络钓鱼技术专家芦笛强调,内容伪装技术的普及,标志着 “以页面内容为核心” 的钓鱼检测路线已经走到瓶颈,检测维度必须从表层页面转向底层网络基础设施,这也是 PhishLumos 技术路线选择的核心逻辑。

2.3 网络基础设施特征的可溯源性分析

网络基础设施是网站运行的底层支撑,主要包含 IP 地址、域名解析记录、网络端口、路由节点、服务器集群、网络连接关系等要素。与可随意篡改的页面内容不同,基础设施特征具备稳定性、关联性、唯一性三大特点,这也是其被用作钓鱼攻击溯源依据的核心原因。

首先是稳定性。攻击者可以在几分钟内修改网页文本、图片、样式,实现内容伪装,但更换服务器 IP、网络路由、服务器集群需要较高成本与操作时间。整轮钓鱼攻击活动中,攻击者会长期复用同一套基础设施,基础设施特征在攻击周期内基本保持稳定。其次是关联性。同一团伙发起的批量钓鱼链接,大概率共用同一 IP 段、同一服务商服务器、同一网络出口,不同 URL 之间通过基础设施形成强关联。最后是唯一性。IP 地址、核心路由节点等基础设施具备全网唯一标识,可作为定位攻击源头的核心线索。

PhishLumos 正是利用基础设施的三大特性,放弃对易篡改页面内容的分析,转而抓取、关联、解析基础设施特征,实现从单条恶意 URL 到整轮钓鱼攻击活动的溯源与测绘。

3 PhishLumos 系统整体架构与核心工作流程

3.1 系统设计理念与技术定位

PhishLumos 由东京都立大学 Daiki Chiba 副教授带领的研究团队研发,相关成果发表于《IEEE Access》期刊,论文题目为《PhishLumos: From a Single URL to Campaign-Level Phishing Mitigation》。该系统的核心设计理念是摒弃单链接判定模式,以内容伪装行为为触发点,依托基础设施特征实现钓鱼攻击全链路测绘与整轮攻击防御。

从技术定位来看,PhishLumos 不属于传统的内容检测工具,而是一款钓鱼攻击活动溯源与批量识别系统。传统工具的目标是 “判断一条链接是否恶意”,而 PhishLumos 的目标是 “从一条存在伪装行为的可疑链接出发,挖掘出该链接所属的整轮钓鱼攻击活动,梳理所有关联恶意 URL、攻击基础设施、传播链路”。二者的技术目标、检测维度、应用场景存在本质区别。

系统的核心设计思路可总结为三点:第一,将内容伪装行为作为系统启动触发条件,只要检测到 URL 存在内容伪装特征,立即启动全链路溯源流程;第二,以网络基础设施特征为核心分析维度,不再依赖页面内容;第三,以知识图谱(KB graph) 为数据载体,将整轮钓鱼攻击的 URL、IP、网络连接、关联关系进行可视化、结构化梳理,形成完整的攻击活动画像。

3.2 系统分层架构

结合官方公开资料与技术原理拆解,PhishLumos 整体采用分层式架构,自上而下分为触发层、基础设施采集层、特征关联分析层、知识图谱构建层、结果输出与预警层五个层级,各层级分工明确、逐级联动,形成完整的检测溯源闭环。

3.2.1 触发层

触发层是系统的入口模块,核心功能为识别 URL 的内容伪装行为。该模块接收外部输入的种子 URL(可以是安全人员上报的可疑链接、全网爬虫抓取的未知链接、用户举报的异常链接等),针对每一条 URL 发起多维度模拟访问,模拟不同终端、不同 IP、不同访问行为的访问请求,对比不同请求下服务器返回的页面内容。

如果多次访问获取的页面内容存在明显差异,且符合内容伪装的典型特征(对爬虫返回正常内容、对普通终端返回可疑页面),则判定该 URL 存在伪装行为,立即触发后续全链路溯源流程。若未检测到伪装行为,则将该 URL 标记为普通链接,结束检测流程。触发层相当于系统的 “传感器”,精准筛选出需要深度溯源的目标链接,避免无效计算资源消耗。

3.2.2 基础设施采集层

当触发层确认 URL 存在内容伪装后,系统进入基础设施采集层。该模块是整个系统的数据来源核心,负责深度抓取目标 URL 对应的全部底层网络基础设施数据,采集维度覆盖四大类核心数据。

第一,IP 相关数据。包括 URL 域名对应的解析 IP 地址、服务器 IP 所属 IP 段、IP 地理位置、IP 服务商、同一服务器绑定的其他域名等。

第二,网络连接数据。包括服务器开放端口、端口服务类型、网络路由节点、上下行网络连接、服务器集群之间的通信链路等。

第三,域名体系数据。包括域名注册信息、域名解析服务器(DNS)、子域名、关联同源域名、域名使用时长等。

第四,服务器特征数据。包括服务器操作系统、中间件版本、服务器集群规模、负载均衡节点等。

该模块采用多线程并行采集模式,针对单条种子 URL 快速完成全维度基础设施数据抓取,采集过程不解析页面内容,因此不会受到内容伪装技术的干扰,保障数据真实性。

3.2.3 特征关联分析层

特征关联分析层是系统的核心算法模块,承担数据清洗、特征匹配、关联挖掘的功能。该模块首先对采集到的海量基础设施数据进行清洗,剔除无效数据、重复数据、临时动态数据,保留稳定的核心特征。随后设定关联匹配规则,以 IP 地址、IP 段、路由节点、DNS 服务器等核心特征为关联维度,在全网 URL 数据库中匹配具备相同或相似基础设施特征的其他链接。

简单来说,该模块的工作逻辑为:若种子 URL 使用 IP A、路由节点 B,则在全网数据中找出所有使用 IP A、路由节点 B 的 URL,将这些 URL 判定为同一钓鱼攻击活动的关联链接。同时,模块会区分强关联与弱关联:共用核心 IP、主路由节点的 URL 为强关联,属于同一团伙的核心钓鱼链接;仅共用二级服务商、普通端口的为弱关联,纳入备选观测范围。

反网络钓鱼技术专家芦笛认为,特征关联分析层是 PhishLumos 技术优势的集中体现,其通过底层基础设施的强关联性,突破了攻击者依靠批量更换域名、URL 规避检测的手段,实现了 “牵一发而动全身” 的溯源效果。

3.2.4 知识图谱构建层

传统检测系统仅输出恶意 URL 列表,而 PhishLumos 采用知识图谱(KB graph)对整轮钓鱼攻击活动进行结构化建模。知识图谱以实体和关系为核心,其中实体包含恶意 URL、IP 地址、DNS 服务器、路由节点、服务器集群四大类;关系则描述不同实体之间的从属、关联、通信关系。

例如,一条恶意 URL 实体与某个 IP 实体存在 “绑定解析” 关系,多个 IP 实体与同一路由节点实体存在 “链路依托” 关系,不同 URL 实体之间存在 “同源攻击” 关系。该模块将特征关联分析层挖掘出的所有实体与关系进行整合,构建出完整的钓鱼攻击知识图谱。知识图谱不仅可以直观展示所有恶意链接,还能清晰呈现攻击的基础设施架构、传播链路、团伙规模,为安全人员溯源打击提供完整依据。

3.2.5 结果输出与预警层

该层级为系统的对外输出模块,主要完成三项工作。第一,整理所有识别出的恶意 URL 清单,标注风险等级、关联攻击团伙、基础设施信息;第二,导出完整的钓鱼攻击知识图谱,支持可视化查看、数据导出;第三,对接安全防护平台、监管系统、域名封禁平台,自动推送恶意链接、IP 地址、域名等封禁清单,实现自动化拦截。同时,该模块会记录每一轮攻击的检测时间、链接数量、特征数据,形成历史数据库,为后续同类攻击识别提供样本支撑。

3.3 端到端完整工作流程

结合分层架构,PhishLumos 从接收种子 URL 到完成整轮钓鱼攻击防御,形成一套闭环工作流程,具体步骤如下:

种子 URL 输入:系统接收外部来源的可疑 URL,作为溯源起点,种子 URL 可以是单条链接,也可以是批量链接集合。

伪装行为检测(触发层):多维度模拟访问目标 URL,对比返回内容,判断是否存在内容伪装。无伪装则直接输出检测结果,流程终止;存在伪装则启动溯源流程。

基础设施数据采集(采集层):针对触发溯源的 URL,全维度抓取 IP、网络连接、域名、服务器等底层基础设施数据。

数据清洗与关联挖掘(分析层):清洗原始数据,基于核心基础设施特征匹配全网关联 URL,划分关联强度,筛选出同批次钓鱼链接。

知识图谱构建(图谱层):以实体和关系为基础,整合所有恶意 URL、基础设施节点,搭建整轮钓鱼攻击知识图谱。

结果汇总与分级:统计所有识别到的恶意链接数量、特征、风险等级,梳理攻击活动的整体规模与架构。

预警与联动防御(输出层):输出恶意链接清单与知识图谱,联动防护系统完成自动封禁、拦截,同时留存数据至历史样本库。

循环迭代检测:基于本轮挖掘出的新增恶意 URL 作为新的种子链接,再次启动检测流程,深度挖掘隐藏的次级关联链接,扩大检测范围。

整个流程完全自动化运行,无需人工逐一对链接进行内容分析,大幅降低人工成本,提升检测效率。

4 PhishLumos 系统性能实测与数据分析

4.1 实测环境与测试样本说明

东京都立大学研究团队开展了两组实测实验,分别为对比人工专家的时效测试与真实网络环境规模化测试,两组测试数据客观反映了 PhishLumos 的综合性能。

第一组测试样本为 103 组真实的钓鱼攻击活动,这些攻击活动均为已被安全机构记录、由黑产团伙发起的规模化钓鱼战役,样本覆盖不同行业仿冒钓鱼(金融、企业办公、政务服务等)、不同伪装等级的内容伪装技术、不同规模的基础设施集群。对照组为具备 5 年以上网络钓鱼处置经验的安全专家团队,专家采用行业主流的人工溯源 + 传统检测工具结合的方式,对 103 组钓鱼攻击进行识别与溯源,以此对比 PhishLumos 的检测时效。

第二组测试为长期真实网络环境测试,测试周期为 6 个月。研究团队选取 600 条来自用户举报、安全日志、全网爬虫的可疑 URL 作为初始种子 URL,部署 PhishLumos 系统进行 7×24 小时自动化检测、溯源与链接挖掘。测试过程中同步启用传统内容中心化检测系统作为对照组,最终统计两套系统挖掘出的链接数量、恶意链接占比、整体运行效率等指标。

4.2 检测时效对比分析

时效是钓鱼防御的核心指标,钓鱼攻击的传播速度极快,越早识别、封禁恶意链接,造成的用户损失就越小。在针对 103 组真实钓鱼攻击活动的时效测试中,实测结果显示:PhishLumos 系统平均比资深安全专家提前 8 天完成整轮钓鱼攻击的识别与溯源。

结合攻击传播规律分析该数据的实际价值:网络钓鱼攻击存在明显的传播周期,攻击发起后的前 7-10 天是恶意链接大范围扩散、受害用户数量快速增长的高峰期。传统模式下,安全专家首先需要发现单条可疑链接,逐一解析页面内容确认恶意属性,再手动追溯关联链接、IP 地址,整个流程耗时较长,往往在攻击扩散高峰期结束后才能完成完整溯源。而 PhishLumos 在检测到内容伪装后立即启动自动化基础设施溯源,无需人工干预,在攻击初期即可完成整轮攻击链路的测绘,在传播高峰期到来前完成预警与拦截,从源头遏制攻击扩散。

反网络钓鱼技术专家芦笛分析指出,8 天的时效优势在网络钓鱼攻防中具备决定性作用,这意味着 PhishLumos 能够在绝大多数用户尚未点击恶意链接时完成防御,大幅降低受害面,这也是传统人工检测和内容检测技术无法企及的核心优势。

4.3 规模化链接挖掘能力与准确率分析

为期 6 个月的真实网络环境测试,充分验证了系统的规模化处理能力。本次测试以 600 条种子 URL 为起点,PhishLumos 通过基础设施关联挖掘,累计发现超过 190000 条全新 URL。研究团队后续对这 190000 条链接进行人工复核与交叉验证,最终确认其中92% 的链接为恶意钓鱼链接,仅 8% 为误判链接(主要为共用基础设施的正规小众网站、闲置域名)。

从数据维度拆解系统能力:第一,挖掘规模。600 个种子链接衍生出 190000 条关联链接,单条种子链接平均可挖掘出 300 余条关联链接,证明基于基础设施的关联算法能够高效挖掘黑产团伙批量生成的同源恶意链接,精准覆盖整轮攻击的全部 URL 集群。第二,识别准确率。92% 的恶意链接识别率,在规模化自动化检测场景中属于较高水平。考虑到网络环境中存在大量共用 IP、服务器的正规网站,该误判率处于可接受范围,且系统可通过后续规则优化进一步降低误判。

作为对照组的传统内容中心化检测系统,在相同 600 条种子 URL、相同 6 个月测试周期内,仅能识别出数千条恶意链接,且无法挖掘同源关联链接,仅能实现单点拦截。两组数据直观证明,在应对产业化、批量式钓鱼攻击时,PhishLumos 的综合能力远超传统内容检测方案。

4.4 与内容中心化检测技术的综合对比

为清晰界定两类技术的适用场景与性能差异,本文从检测维度、抗伪装能力、溯源能力、处理规模、检测时效、运维成本六个核心维度进行综合对比,对比结果如下表所示。

表格

对比维度 PhishLumos(基础设施检测) 传统内容中心化检测

核心检测维度 IP、网络连接、域名等底层基础设施 网页文本、样式、代码等页面内容

抗内容伪装能力 极强,不受页面内容篡改影响 极弱,易被内容伪装技术完全规避

攻击溯源能力 具备全链路溯源,可测绘整轮攻击活动 仅单链接判定,无关联溯源能力

批量链接处理能力 强,自动化挖掘数万级关联链接 弱,仅能逐条检测,难以批量处理

检测时效 快,自动化流程,领先人工 8 天 慢,依赖内容解析,人工介入耗时久

长期运维成本 低,自动化运行,少量规则优化 高,需人工复核大量链接,持续更新内容规则

从对比结果可以看出,PhishLumos 的所有核心优势均针对传统钓鱼检测的痛点设计,二者并非替代关系,而是互补关系。在日常零散可疑链接检测场景中,传统内容检测技术仍可发挥作用;但在应对团伙化、规模化、使用内容伪装的产业化钓鱼攻击时,PhishLumos 是更优选择。

4.5 测试结论总结

综合两组实测数据可得出三点核心结论:第一,PhishLumos 彻底改变了钓鱼检测的技术范式,实现了从 “单链接内容判定” 到 “整轮攻击基础设施溯源” 的升级,完美适配现代产业化网络钓鱼的攻防场景;第二,系统在检测时效、批量挖掘能力、识别准确率三大核心指标上表现优异,实战价值突出;第三,基础设施检测路线能够有效对抗内容伪装这一主流规避技术,防御鲁棒性显著提升。实测数据充分证明该技术路线具备大规模落地应用的可行性。

5 核心检测逻辑代码示例与技术实现

结合 PhishLumos“伪装行为检测 + 基础设施采集 + 特征关联” 的核心逻辑,本文基于 Python 语言编写简易代码示例,复现系统核心功能模块。代码仅用于演示技术原理,简化了知识图谱构建、大规模数据比对等复杂模块,保留内容伪装检测、URL 基础设施(IP)采集、基础特征关联匹配三大核心功能,代码运行环境为 Python 3.8 及以上版本,依赖requests、socket、dnspython等常用第三方库。

5.1 环境准备与依赖安装

运行代码前,需安装所需第三方库,执行以下命令:

bash

运行

pip install requests socket dnspython

代码说明:requests用于模拟不同终端请求、抓取页面内容;socket与dnspython用于解析域名、获取 IP 等基础设施信息;整体代码分为三大函数模块,分别对应伪装检测、基础设施采集、特征关联匹配。

5.2 完整代码示例及逐行解析

# 导入所需依赖库

import requests

import socket

import dns.resolver

from requests.exceptions import RequestException


# 关闭requests警告,避免无关日志干扰

requests.packages.urllib3.disable_warnings()


# ===================== 模块1:内容伪装行为检测(对应PhishLumos触发层) =====================

def check_cloaking(target_url: str) -> bool:

   """

   检测目标URL是否存在内容伪装(Cloaking)行为

   :param target_url: 待检测的可疑URL

   :return: True-存在伪装行为,False-无伪装行为

   """

   # 配置两种不同的User-Agent,模拟爬虫扫描器和普通浏览器

   crawler_headers = {

       "User-Agent": "Mozilla/5.0 (compatible; SecurityScanner/1.0; +https://sec-scanner.com)"

   }

   browser_headers = {

       "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36"

   }


   try:

       # 模拟爬虫访问,获取页面内容(关闭证书校验,适配仿冒站点)

       crawler_response = requests.get(target_url, headers=crawler_headers, timeout=10, verify=False)

       crawler_content = crawler_response.text[:2000]  # 截取前2000字符,减少运算量


       # 模拟普通浏览器访问,获取页面内容

       browser_response = requests.get(target_url, headers=browser_headers, timeout=10, verify=False)

       browser_content = browser_response.text[:2000]


       # 对比两次访问的内容,差异超过阈值则判定为存在伪装

       if crawler_content != browser_content:

           return True

       else:

           return False


   except RequestException:

       # 访问异常(超时、无法连接),判定为高风险可疑链接,视为存在伪装

       return True


# ===================== 模块2:基础设施(IP、域名)信息采集(对应基础设施采集层) =====================

def get_infrastructure_info(domain: str) -> dict:

   """

   采集域名对应的核心基础设施信息:IP地址、IP所属主机名

   :param domain: 解析后的域名

   :return: 基础设施信息字典

   """

   infra_info = {"domain": domain, "ip_list": [], "hostname": ""}

   try:

       # 域名解析,获取所有关联IP地址

       dns_answer = dns.resolver.resolve(domain, "A")

       for record in dns_answer:

           ip_addr = record.to_text()

           infra_info["ip_list"].append(ip_addr)

       # 通过IP反向解析获取主机名

       if infra_info["ip_list"]:

           infra_info["hostname"] = socket.gethostbyaddr(infra_info["ip_list"][0])[0]

   except (dns.resolver.NXDOMAIN, socket.herror):

       # 域名解析失败、反向解析失败,保留空值

       pass

   return infra_info


def extract_domain(url: str) -> str:

   """从完整URL中提取纯域名"""

   if "http://" in url:

       domain = url.replace("http://", "").split("/")[0]

   elif "https://" in url:

       domain = url.replace("https://", "").split("/")[0]

   else:

       domain = url.split("/")[0]

   return domain


# ===================== 模块3:基础设施特征关联匹配(对应特征关联分析层) =====================

def match_related_urls(seed_infra: dict, url_pool: list) -> list:

   """

   基于IP特征,在URL池中匹配同源关联链接

   :param seed_infra: 种子URL的基础设施信息

   :param url_pool: 待匹配的全网URL池

   :return: 同源关联恶意URL列表

   """

   related_urls = []

   seed_ip_set = set(seed_infra["ip_list"])

   # 遍历URL池,逐一比对基础设施IP特征

   for url in url_pool:

       domain = extract_domain(url)

       url_infra = get_infrastructure_info(domain)

       url_ip_set = set(url_infra["ip_list"])

       # 存在共同IP则判定为同源关联链接

       if seed_ip_set & url_ip_set:

           related_urls.append({"url": url, "infra": url_infra})

   return related_urls


# ===================== 主程序:串联所有模块,模拟PhishLumos核心流程 =====================

def main():

   # 1. 定义测试种子URL(溯源起点)

   seed_url = "https://test-phish-cloaking.example.com"

   print(f"开始检测种子URL:{seed_url}")


   # 2. 第一步:检测内容伪装行为,触发溯源流程

   cloaking_result = check_cloaking(seed_url)

   if not cloaking_result:

       print("未检测到内容伪装,结束检测")

       return

   print("检测到内容伪装行为,启动基础设施溯源流程")


   # 3. 第二步:采集种子URL的基础设施信息

   seed_domain = extract_domain(seed_url)

   seed_infra = get_infrastructure_info(seed_domain)

   print(f"种子URL基础设施信息:{seed_infra}")


   # 4. 第三步:模拟全网URL池(实际场景为海量全网URL数据库)

   test_url_pool = [

       "https://test-phish1.example.com",

       "https://test-phish2.example.com",

       "https://normal-website.example.com",

       "https://test-phish3.example.com"

   ]


   # 5. 第四步:匹配同源关联URL

   related_malicious_urls = match_related_urls(seed_infra, test_url_pool)

   print(f"\n基于基础设施特征挖掘到的同源关联链接数量:{len(related_malicious_urls)}")

   for item in related_malicious_urls:

       print(f"关联恶意URL:{item['url']},关联IP:{item['infra']['ip_list']}")


if __name__ == "__main__":

   main()

5.3 代码功能与局限性说明

5.3.1 代码核心功能

伪装行为检测:通过模拟爬虫与普通浏览器两种访问身份,对比页面内容,实现内容伪装识别,复现 PhishLumos 触发层逻辑。

基础设施采集:完成域名解析、IP 地址获取、反向主机名解析,抓取核心底层网络特征,对应采集层功能。

特征关联匹配:以 IP 地址为核心关联维度,在 URL 池中匹配共用 IP 的同源链接,复现特征关联分析层的基础算法。

该代码完整复现了 PhishLumos 区别于传统检测工具的三大核心创新点,能够直观展示 “伪装触发 + 基础设施溯源 + 关联挖掘” 的技术逻辑。

5.3.2 代码局限性(工程落地优化方向)

本文代码为原理演示版本,与工业级 PhishLumos 系统存在明显差距,实际部署时需从以下维度优化:

拓展基础设施采集维度:演示代码仅采集 IP 与域名,工业系统需增加端口、路由、DNS、服务器集群等多维度数据。

优化关联算法:当前仅基于单 IP 匹配,实际系统需增加 IP 段、路由节点、DNS 服务器等多权重关联规则,区分强弱关联。

增加知识图谱模块:补充图数据库(Neo4j 等),实现实体与关系的存储、可视化,构建完整攻击知识图谱。

提升并发性能:采用多线程、分布式架构,支撑十万级、百万级 URL 的并行采集与比对。

优化误判过滤规则:增加正规网站白名单、IP 服务商白名单,进一步降低误判率。

反网络钓鱼技术专家芦笛指出,原理代码是技术落地的基础,PhishLumos 能够实现规模化应用,不仅依托核心算法,更依赖分布式架构、大数据存储、图计算等配套工程能力,小型演示代码需经过多层架构迭代才能适配真实网络环境。

6 PhishLumos 技术优势、应用场景与优化方向

6.1 核心技术优势总结

结合原理解析、实测数据与代码验证,相较于传统钓鱼检测技术,PhishLumos 具备四大不可替代的技术优势,也是其能够应对现代产业化钓鱼攻击的核心原因。

第一,强对抗性,抵御内容伪装攻击。系统完全不依赖页面内容进行判定与溯源,攻击者使用的各类内容伪装技术无法干扰基础设施数据的采集与分析,从根源上解决了传统技术被规避的问题,防御鲁棒性大幅提升。

第二,全域溯源能力,打击整轮攻击。突破单链接检测的局限,以基础设施为纽带,将零散的恶意 URL 串联为完整的攻击活动,不仅能够拦截恶意链接,还能定位攻击团伙的服务器集群、网络链路,实现 “溯源 - 识别 - 全域封禁” 一体化,遏制攻击者重复发起攻击。

第三,超高检测时效,抢占防御先机。全流程自动化运行,无需人工介入内容解析与单链接复核,平均比人工专家提前 8 天完成攻击识别,在钓鱼攻击传播高峰期前完成防御,最大限度减少用户受害规模。

第四,规模化处理能力,适配黑产批量攻击。依托特征关联算法,单条种子链接可挖掘数百条同源恶意链接,6 个月实测挖掘超 190000 条恶意 URL,能够高效应对攻击者批量生成链接的攻击模式,适配海量网络数据处理场景。

6.2 典型应用场景

基于技术特性与实测表现,PhishLumos 可落地于网络安全产业链的多个环节,覆盖监管机构、安全厂商、互联网企业、政企单位四大类应用场景。

6.2.1 网络安全监管机构

网信、公安、通信管理等网络安全监管部门,可部署 PhishLumos 用于全网钓鱼攻击态势感知。依托系统的全链路溯源能力,实时监测全网规模化钓鱼攻击活动,测绘攻击基础设施分布、团伙活动范围,为网络违法犯罪打击提供技术支撑。同时,系统挖掘的海量恶意 URL、IP、域名清单,可用于全网域名、IP 黑名单更新,实现全域网络环境治理。

6.2.2 网络安全厂商

安全厂商可将该技术集成至云安全平台、威胁情报平台、终端防护软件中。一方面,利用系统挖掘的同源恶意链接丰富威胁情报库,提升全网威胁检测能力;另一方面,将基础设施关联规则嵌入防火墙、网关设备,实现企业网络、运营商网络的自动化钓鱼链接拦截。对于提供政企安全服务的厂商,该技术可作为高端威胁溯源服务的核心能力。

6.2.3 大型互联网企业与运营商

社交平台、邮箱服务商、短信运营商是钓鱼链接传播的主要渠道。企业可部署 PhishLumos,对平台内用户发布、接收的 URL 进行实时检测。一旦发现存在内容伪装的可疑链接,立即启动溯源,批量拦截整批同源恶意链接,避免钓鱼链接在平台内大规模传播,保护平台用户安全。

6.2.4 政企内部网络防护

银行、大型企业、政务单位是网络钓鱼的重点仿冒对象。政企单位可在内部网关、办公网络入口部署轻量化版本的 PhishLumos,检测员工接收的邮件、聊天消息中的外部链接,防止员工点击钓鱼链接导致内网入侵、信息泄露,强化内部网络边界防护。

6.3 现存技术局限与优化方向

PhishLumos 作为新一代钓鱼检测技术,优势显著,但结合网络攻防实际场景,仍存在部分局限,结合攻防对抗趋势,本文提出针对性优化方向。

6.3.1 现存局限

针对分布式基础设施攻击的识别能力下降。部分高级黑产团伙开始采用分布式服务器、动态 IP、全球节点代理等基础设施,同一轮钓鱼攻击不再共用固定 IP 与路由节点,传统基础设施关联规则失效,系统挖掘同源链接的能力会受到影响。

初始种子 URL 依赖。系统需要以存在伪装行为的种子 URL 作为溯源起点,若钓鱼攻击初期没有任何链接被发现、举报,系统无法主动发起溯源,存在被动检测的短板。

复杂网络环境下误判无法完全消除。大型云服务商、共享服务器集群中,大量正规网站与钓鱼网站共用同一 IP、服务器,尽管实测误判率仅 8%,但在超大规模全网检测场景中,误判数量仍会累积,增加人工复核成本。

知识图谱分析深度不足。当前知识图谱主要用于展示实体与基础关联关系,缺乏智能化攻击行为分析、攻击团伙画像、攻击趋势预测等高级功能,数据价值未充分挖掘。

6.3.2 针对性优化方向

拓展多维度关联特征,适配分布式基础设施。在原有 IP、路由特征基础上,新增服务器指纹、SSL 证书、通信行为、攻击时间规律等弱特征,采用多特征加权关联算法,应对动态 IP、分布式节点的新型攻击模式。

融合主动爬虫,实现主动探测。在系统前端增加全网主动爬虫模块,定时抓取全网未知 URL,主动检测内容伪装行为,摆脱对人工上报种子 URL 的依赖,实现 “被动响应” 向 “主动探测” 升级。

构建分层白名单体系,降低误判率。基于正规企业域名、云服务商 IP 段、政务网站服务器等数据,构建多层级智能白名单。对共用基础设施的链接进行二次核验,区分正规站点与恶意站点,进一步压缩误判空间。

赋能知识图谱智能化分析。引入机器学习算法对知识图谱数据进行深度挖掘,实现攻击团伙画像、攻击地域分布、攻击周期预测等功能,从 “攻击测绘” 升级为 “态势预测”,提升威胁预警能力。

融合内容检测技术,构建混合防御体系。将 PhishLumos 的基础设施溯源技术与传统内容检测技术相结合,形成 “基础设施全局溯源 + 内容局部核验” 的混合架构,两类技术互补,覆盖全场景钓鱼攻击。

6.4 技术落地的部署建议

结合应用场景与技术局限,为相关机构部署 PhishLumos 类基础设施检测系统提出三点落地建议。第一,分阶段部署,小型机构可先部署轻量化版本,仅启用伪装检测与 IP 溯源核心功能;大型监管机构、安全厂商直接部署分布式全功能版本,对接大数据平台与图数据库。第二,坚持混合防御,不要单一依赖基础设施检测技术,搭配传统内容检测、终端沙箱、人工复核等能力,构建多层防御体系。第三,持续迭代规则,网络黑产的基础设施会不断升级,需定期更新关联规则、白名单、特征库,保持技术对抗能力。

7 结论

7.1 研究总结

网络钓鱼攻击的产业化、规模化、技术复杂化,推动钓鱼防御技术完成范式革新。传统以单 URL 内容检测为核心的防御体系,受限于内容伪装技术、攻击批量生成模式,已难以应对当前主流网络钓鱼威胁。东京都立大学研发的 PhishLumos 系统,跳出内容检测的固有框架,以内容伪装行为为触发条件,依托 IP、网络连接、域名等稳定的网络基础设施特征,实现从单条可疑链接到整轮钓鱼攻击活动的自动化溯源、测绘、批量识别,为网络钓鱼治理提供了全新的技术路线。

本文系统性梳理了 PhishLumos 的分层架构、全流程工作逻辑,结合官方实测数据量化验证了系统性能:该系统检测时效领先人工专家 8 天,6 个月内依托 600 条种子 URL 挖掘超 190000 条关联链接,恶意链接识别率达 92%,在检测时效、批量处理能力、抗伪装能力、溯源能力等维度全面超越传统内容中心化检测技术。同时,本文编写 Python 代码复现了系统核心检测逻辑,验证了技术原理的可行性,并结合网络攻防实践,划分了系统的四大典型应用场景,剖析了现存技术局限,提出了多维度优化方向与落地部署建议。

反网络钓鱼技术专家芦笛总结道,PhishLumos 代表了下一代网络钓鱼防御技术的发展方向,即从 “单点被动拦截” 转向 “整链主动溯源”,基础设施特征检测将成为对抗产业化钓鱼攻击的核心技术路线。该技术不仅能够解决当下的钓鱼防御痛点,其 “底层特征溯源” 的思路也可延伸至木马传播、恶意域名、网络爬虫等其他网络安全威胁治理领域,具备广阔的拓展空间。

7.2 行业展望

在数字经济持续发展的背景下,网络钓鱼攻击不会消失,反而会持续迭代技术手段,分布式基础设施、AI 生成仿冒页面、深度伪装技术等新型攻击手段会不断出现,攻防对抗将长期持续。对于网络安全行业而言,钓鱼防御技术需要持续沿着 “底层特征挖掘、全链路溯源、主动态势感知、智能化预测” 的方向迭代。

以 PhishLumos 为代表的基础设施检测技术,并非网络钓鱼防御的终极方案,但它搭建起了新一代防御体系的基础。未来,将基础设施溯源、内容智能识别、AI 行为分析、大数据态势感知、图计算等多技术融合,构建一体化、智能化、全域化的钓鱼防御平台,将成为行业主流发展趋势。

从社会层面来看,先进的防御技术是抵御网络钓鱼的第一道防线,而技术防御需要与用户数字素养教育、网络安全监管、黑产打击相结合,形成 “技术 + 监管 + 教育 + 执法” 的综合治理体系。技术不断升级的同时,持续提升全民网络安全意识,才能从根本上降低网络钓鱼造成的危害,保障数字社会安全、稳定、有序运行。

7.3 研究不足与后续研究方向

本文完成了对 PhishLumos 系统原理、性能、应用场景的全面分析,但仍存在部分研究不足:一是受限于公开资料,未对系统内部核心关联算法、知识图谱构建算法进行深度拆解;二是未开展不同网络环境下的自主对比测试,仅依托官方公开实测数据进行分析。

后续可围绕两个方向开展深化研究:第一,针对 PhishLumos 的算法细节进行逆向与优化,结合国内网络环境特征,研发适配国内运营商、云服务体系的本土化基础设施关联算法;第二,开展多组对比实验,测试系统在动态 IP、分布式服务器、高级内容伪装等复杂攻击场景下的性能,进一步完善技术优化方案,推动该类新型钓鱼检测技术在国内网络安全领域的落地与普及。

编辑:芦笛(公共互联网反网络钓鱼工作组)

目录
相关文章
|
4天前
|
人工智能 自然语言处理 文字识别
阿里云百炼Qwen3.7-Max简介:能力、优势、支持订阅计划参考
Qwen3.7-Max是阿里云百炼面向智能体时代推出的新一代旗舰模型,对标GPT-5.5、Claude Opus 4.7等闭源旗舰。该模型支持百万级token上下文窗口,具备顶级推理能力、多模态搜索与视觉理解增强、流式输出低延迟响应等核心优势,覆盖编程、办公、长周期自主执行等复杂场景。同时支持OpenAI接口兼容,便于系统快速迁移。用户可通过Token Plan团队或节省计划等订阅方式灵活调用,适合企业级高要求场景使用。
8366 37
阿里云百炼Qwen3.7-Max简介:能力、优势、支持订阅计划参考
|
3天前
|
缓存 测试技术 API
Qwen 3.7 Plus 与 Max 实测:性价比与多模态能力差异解析(2026)
2026 年 6 月 1 日,阿里悄无声息地发布了 Qwen 3.7 Plus,距 Qwen 3.7 Max 上线刚好 11 天。同样的 1M 上下文,同样的 35 小时自治上限。但价格才是头条:Plus 是 0.40/M输入,Max是 2.50/M——便宜约 6 倍——并且还能看图、看视频。Vision Arena 上 Plus 已经排到 #16。所以这周真正值得讨论的问题不是”要不要为视觉能力买单”,而是”Max 凭什么用 6 倍价格换来 2 个百分点的 benchmark 领先”。
|
4天前
|
JavaScript 定位技术 API
CodeGraph 爆火:编程 Agent 需要的不是更多上下文,而是一张提前画好的代码地图
CodeGraph 是一款爆火的本地代码智能工具,通过 tree-sitter 解析 AST 构建结构化知识图谱(存于 SQLite),为编程 Agent 提前生成“代码地图”。它显著降低 Agent 在中大型项目中的探索成本——实测工具调用减少71%、Token 降57%、速度提升46%,支持19+语言及主流框架路由识别,完全离线、无需 API Key。
567 3
CodeGraph 爆火:编程 Agent 需要的不是更多上下文,而是一张提前画好的代码地图
|
4天前
|
人工智能 运维 JavaScript
阿里云Qoder CN(原通义灵码)全解析 产品形态、版本划分与技术适配说明
在AI辅助开发与智能办公工具持续普及的当下,阿里云旗下原通义灵码正式更名为Qoder CN,同时延伸出QoderWork CN、Qoder CN CLI、Qoder CN Mobile等多款配套产品,形成覆盖代码开发、日常办公、终端交互、移动端使用的完整工具矩阵。Qoder CN核心定位为AI智能编码助手,深度适配主流代码编辑器、集成开发环境以及终端场景;QoderWork CN则偏向桌面端综合办公辅助,二者面向不同使用场景,划分了多个版本档位,搭配差异化资源配额、功能权限与计费规则,同时兼容多款主流大模型。
590 4
|
4天前
|
数据采集 人工智能 前端开发
让 Coding Agent 从黑盒到透明:阿里云 Agent 观测审计数据采集实践
AI Agent 规模化落地带来执行黑盒、行为难追溯、成本难度量三大难题。阿里云基于 OTel 标准,面向 Coding Agent、个人通用助理和框架型 Agent,推出 LoongSuite Pilot、插件及探针等无侵入采集方案,让 Agent 实现可看见、可分析、可审计、可治理。
704 150
|
4天前
|
人工智能 缓存 自然语言处理
阿里Qwen3.7-Max评测:Agent能力显著提升,耗时与调用成本大幅下降
阿里云百炼推出面向智能体的旗舰大模型Qwen3.7-Max,具备长周期自主执行能力,显著提升编程、办公自动化等复杂任务处理水平;支持MCP集成与多框架兼容,并以限时5折+100万Tokens免费试用大幅降低使用门槛,助力企业高效落地AI应用。在阿里云百炼平台快速体验:https://t.aliyun.com/U/fPVHqY
1932 10
|
4天前
|
存储 安全 Java
AgentScope Java 2.0:打造分布式、企业级智能体底座
AgentScope 2.0 面向分布式部署、稳定运行、权限安全等企业级需求全面升级,打造支持多租户隔离与长期稳定运行的企业级智能体底座。
|
4天前
|
人工智能 运维 API
2026年阿里云百炼通义千问Qwen3.7-plus深度介绍 功能特性、使用优势及618大促订阅方案指南
大模型技术的普及,让AI能力逐步融入个人办公、内容创作、代码编写、企业运营、教育培训等各类场景。不同定位的模型对应不同使用需求,旗舰级模型性能强劲但使用成本偏高,轻量化模型价格低廉却难以胜任复杂任务,而介于两者之间的中端主力模型,凭借均衡的能力、亲民的定价、广泛的场景适配性,成为绝大多数个人用户、小型团队、中小企业的首选。
725 1
|
4天前
|
人工智能 安全 定位技术
CodeGraph深度解析 让Claude Code工具调用直降七成的核心原理与实操教程
如今以Claude Code为代表的AI编程智能体已经成为开发者日常编码、项目重构、漏洞修复的必备工具。但在长期使用过程中,几乎所有开发者都会遇到同一个明显痛点:AI虽然具备强大的代码生成与分析能力,却常常陷入盲目探索的循环中。
1336 2
|
4天前
|
人工智能 运维 自然语言处理
阿里云百炼Qwen3.7-Max模型详解:综合能力、核心优势与订阅计划参考指南
2026年,大模型技术持续向通用化、高性能、场景化方向迭代,阿里云百炼作为一站式大模型服务平台,持续推出迭代升级的模型产品,Qwen3.7-Max便是当前主力旗舰级大模型之一。该模型依托深度优化的底层架构与大规模训练数据,在文本理解、逻辑推理、多模态交互、代码生成、长文本处理等多个维度实现能力升级,同时搭配灵活的订阅计划体系,能够适配个人开发者、中小企业、大型企业、政企机构等不同类型用户的使用需求。
507 2