这位研究网络黑产的清华教授总结了一本《黑产黑话宝典》

简介:
   你听过黑话吗?

有!

天龙盖地虎

宝塔镇河妖

不不不,这句黑话已经OUT很久了。

----以下是一组分割线,上下没有关联----

今天(7月26日),蓝莲花(Blue-Lotus)战队组建人之一的清华教授段海新介绍了一些网络黑产的黑话更让人大开眼界(蓝莲花有多牛,你可以搜索一下)。

下面进入自我测试时间,如果这些黑话你都能看懂,也许你是黑产研究学八级,要么就是经历很丰富:

菠菜

平马二中一

丁香五月天

咕噜咕噜出肉

段海新腼腆地介绍了一下第一个词,“菠菜”就是“博彩”的意思,后面三个他居然没解释。

好奇的雷锋网随便搜索了其中一个关键词,显示出如下的搜索结果,吓得我赶紧捂上了眼睛:

这位研究网络黑产的清华教授总结了一本《黑产黑话宝典》

装作看不懂的样子,继续听段教授讲故事。

疯狂SEO的黑产网站

网络黑产,无奇不有,黄赌毒尤甚。

这些黄赌毒网站为了在搜索界面抢占更有利的位置,往往会对一些权重较高的网站进行劫持,比如以edu.cn或gov.cn结尾的网站。

你只是想打开一个高校的官网或一个政府网站,一不小心就进入了不可言说的世界。

这位研究网络黑产的清华教授总结了一本《黑产黑话宝典》

你只能感叹一句:黑产推广真是丧心病狂。

然而,这并不算什么。黄赌毒和诈骗类网站为了推广自己,还会借助一种技术:蜘蛛池。

蜘蛛池就是一堆由垃圾域名组成的站群,在每个站点下都生成海量页面(抓一堆文本内容相互组合),页面模板与正常网页没多大区别。给那些未收录的页面,在短时间内提供大量的真实的外链,入口曝光多了,被抓取几率就大,收录率自然也就上去了,又因为是外链,所以在排名上也有一定的正向加分。

如果你再稍微了解一点搜索技术,说白了,就是人为制造了一张不断变大的网,把蜘蛛困在里面,让它不断的爬行网内的页面。

总而言之,就是网络黑产不断地用各种手段推广自己,争夺注意力。

噢!黑产有行业术语

为了打掉黑产网站,就要研究黑产网站的 SEO!也因此,段海新发现了伴随黑产网站出现的是“黑产词”:这些网站总有一些关键词像“标签”一样地贴在自己身上。

正经的说法是:

“黑产词”是伴随黑产出现的产品同义词及违法产品本身的关键词的统称。非法商贩和买家通过协定新的词汇表示一种产品,以此躲避监管。

这些隐蔽的“黑产词”通常会扭曲常用词含义,导致“外行人”无法理解其背后的含义,上面举例的一些即是“黑产词”。

这里有个小插曲值得一提。

清华大学有一个优雅的小院名为“怡春院”,曾作为校机关的办公场所,但是,扭曲的黑产居然把这个词变成了……额……这位研究网络黑产的清华教授总结了一本《黑产黑话宝典》通过搜索引擎查询“怡春院”这歌关键词,国内外主流搜索引擎搜出来的都是成人社区(Google除外)。

 他推测,也许这些搜索引擎比较真实地反映了用户搜索的需求。

这位研究网络黑产的清华教授总结了一本《黑产黑话宝典》

好消息:这里有本“黑话大全”

雷锋网了解到,被推广的“黑产词“可以通过自动化方式检测出来。人们在查询某个商品时,可能会反复触及到多个类似“黑产词”的网站页面,这些页面有可能包含恶意或欺诈内容。

好消息是,利用搜索引擎查询相关页面,并结合相关搜索扩展查询结果,最后采用算法可将结果融合判定是否为黑产词,段海新和他的研究团队做的就是这件事情(也许并不是为了报“怡春院”之仇)。

如何通过自动化手段检测一些新的黑产黑话?

先来了解一下黑产网站是怎么推广的。段海新介绍,比如,毒品商家找到做非法 SEO 引擎优化的推广商,根据产品和关键词进行优化,搜索引擎的爬虫自动到网站上抓取内容,用户搜索时,就有可能被指向这个毒品网站。

因此,段海新的研究团队想出的对抗办法是:

1.输入两部分数据,一部分是搜索引擎厂商提供的恶意URL列表,另一部分是从蜘蛛池推广网站中抓取的200多万页面,在这些页面中提取的关键词。

2.过滤掉这些词中的合法词汇(白词),然后再到搜索引擎中验证一次,是否触发了搜索引擎的报警。

3.利用搜索引擎厂商的相关搜索进行扩展。

最终,就能找到“正确的黑话”。

看上去,三个步骤很简单,但是隐藏了三个复杂的问题——

1.如何提取关键词?

黑产关键词可能会出现在黑产网站的任何一个页面,在尝试很多区域后,段海新发现,明文可点击区域的效果最明显。

你要问了,如果黑产把黑词放在别的地方是否可以逃避检测?

并没有那么容易,如果黑产想逃避检测,带来的副作用是, 搜索引擎的爬虫也无法搜索到这些关键词。

2.如何过滤白词?

用自然语言理解的方法非常困难,但段海新的团队发现了一个简单的方法:很多词都是从新闻热点中抓取过来,而这些新闻标题比较长,所以我们就把超过一定长度的新闻标题过滤掉。

3.如何判断是白词还是黑词?

比如,“清华”是一个白词,所以搜索结果比较干净,而且搜索引擎已经把清华的页面标注,但是搜索“菠菜”,三条以上的搜索结果标注为报警,那么,这个词就可能有问题。

因为“相关搜索”关联了用户的搜索行为,用户输入了一个词汇,但没有点击任何一个链接,又搜索了下一个词汇,那么证明第一个词汇和第二个词汇是相关的;用户搜索了一个关键词,点击了一个链接,那么证明这歌链接里的关键词与这个搜索词相关。

于是,段海新和研究团队得到了 40 万个推广的黑产词汇,确定其中 94%为黑词,去掉地名等"长尾"修饰词最终得到了 1500 个左右的核心词,手工分成了六类,并提取了相关的域名和URL 还有 100万-200万个。

为了验证这些“黑词”是真的黑词,他们在2个不同的搜索引擎中再次搜索新黑词,比如,搜索“***商人”,某歌前10页全是与赌博相关的结果,则可以证明 SEO 的效果“非常好”,这些词是有效的新黑词。

拿到了黑词之后,有什么用?

(当然是为了打掉黑产,报“怡春院”之仇咯这位研究网络黑产的清华教授总结了一本《黑产黑话宝典》

开个玩笑。

雷锋网了解到,段海新和他的同事们做了一个厚厚的研究报告,来讨论黑词的“用处”,他也简单介绍了几个用途:

1.基于黑产推广页面留下的电话号码,他们进行了统计,发现黑产电话号码归属地最多的是山东,徐玉玉案件发生在山东,也许不是偶然事件。

2.他们依据这些黑词对贴吧、论坛进行了统计,发现这些黑词在贴吧和论坛普遍存在,如果将这些黑词反馈给搜索引擎厂商,再次搜索,可以净化搜索结果,还可以净化论坛、网上商店。

3.利用现在扩展的黑词,在教育类和政府类网站进行搜索,发现大量被攻破的网站。

目前,段海新的研究团队正在与百度合作,应用其研究成果。

注:该文引用了段海新在2017网络安全生态峰会上的部分发言,该论坛由阿里巴巴和蚂蚁金服共同主办,干货十足。

--写在最后的话--

阿里巴巴的小伙伴告诉雷锋网(公众号:雷锋网),阿里也在淘宝上应用了相关对抗“黑话”的技术,在实际应用过程中,还要面对更多变得连亲妈都不认识的“黑词”这位研究网络黑产的清华教授总结了一本《黑产黑话宝典》,对抗升级更可怕。

于是,雷锋网决定,在接下来的某一期中,探讨阿里到底应用了哪些“黑词”检测与对抗技术,敬请期待。


   
  本文作者: 李勤

本文转自雷锋网禁止二次转载, 原文链接
目录
相关文章
|
3月前
|
机器学习/深度学习 数据可视化 数据挖掘
【Macos系统】安装VOSviewer及使用VOSviewer教程!!以ESN网络的研究进行案例分析
本文介绍了如何在MacOS系统上安装VOSviewer软件,并以ESN(Echo State Network)网络的研究为例,通过VOSviewer对相关科学文献进行可视化分析,以深入了解ESN在学术研究中的应用和发展情况。
285 0
【Macos系统】安装VOSviewer及使用VOSviewer教程!!以ESN网络的研究进行案例分析
|
6月前
BOSHIDA AC/DC电源模块在通信与网络设备中的应用研究
BOSHIDA AC/DC电源模块在通信与网络设备中的应用研究
BOSHIDA AC/DC电源模块在通信与网络设备中的应用研究
|
6月前
|
安全
AC/DC电源模块在通信与网络设备中的应用的研究
AC/DC电源模块在通信与网络设备中的应用的研究
AC/DC电源模块在通信与网络设备中的应用的研究
|
6月前
|
机器学习/深度学习
简单通用:视觉基础网络最高3倍无损训练加速,清华EfficientTrain++入选TPAMI 2024
【5月更文挑战第30天】清华大学研究团队提出的EfficientTrain++是一种新型训练方法,旨在加速视觉基础网络(如ResNet、ConvNeXt、DeiT)的训练,最高可达3倍速度提升,同时保持模型准确性。该方法基于傅里叶谱裁剪和动态数据增强,实现了课程学习的创新应用。在ImageNet-1K/22K数据集上,EfficientTrain++能有效减少多种模型的训练时间,且在自监督学习任务中表现出色。尽管面临适应性与稳定性的挑战,EfficientTrain++为深度学习模型的高效训练开辟了新途径,对学术和工业界具有重要意义。
61 4
|
5月前
|
安全 网络安全 数据安全/隐私保护
网络安全威胁分析与防护技术研究
网络安全威胁分析与防护技术研究
55 0
|
6月前
|
算法 计算机视觉 网络架构
CVPR 202:擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet
【5月更文挑战第10天】在CVPR 2024会议上,清华大学与博世团队推出MagNet,一种针对复杂场景和语言表达的实例分割网络。MagNet通过Mask Grounding辅助任务强化视觉-语言对应,缩小模态差距,并结合跨模态对齐损失与模块,提升RIS任务的准确性。在RefCOCO、RefCOCO+和G-Ref基准上取得显著优势,但对罕见表达和复杂场景的处理仍有待优化。[论文链接](https://arxiv.org/abs/2312.12198)
166 5
|
6月前
|
机器学习/深度学习 数据可视化 算法
R语言神经网络与决策树的银行顾客信用评估模型对比可视化研究
R语言神经网络与决策树的银行顾客信用评估模型对比可视化研究
|
6月前
|
机器学习/深度学习 存储 数据采集
随机森林填充缺失值、BP神经网络在亚马逊评论、学生成绩分析研究2案例合集1
随机森林填充缺失值、BP神经网络在亚马逊评论、学生成绩分析研究2案例合集
|
6月前
|
机器学习/深度学习 算法 搜索推荐
SPSS大学生网络购物行为研究:因子分析、主成分、聚类、交叉表和卡方检验
SPSS大学生网络购物行为研究:因子分析、主成分、聚类、交叉表和卡方检验
|
6月前
|
机器学习/深度学习 安全 网络安全
利用机器学习优化数据中心能效的研究数字堡垒的构建者:网络安全与信息安全的深层探索
【5月更文挑战第29天】在云计算和大数据时代,数据中心的能效问题成为关键挑战之一。本文通过集成机器学习技术与现有数据中心管理策略,提出了一种新型的智能优化框架。该框架能够实时分析数据中心的能耗模式,并自动调整资源分配,以达到降低能耗的目的。研究结果表明,应用机器学习算法可以显著提升数据中心的能源使用效率,同时保持服务质量。
下一篇
无影云桌面