开发者社区> boxti> 正文

这位研究网络黑产的清华教授总结了一本《黑产黑话宝典》

简介:
+关注继续查看
  你听过黑话吗?

有!

天龙盖地虎

宝塔镇河妖

不不不,这句黑话已经OUT很久了。

----以下是一组分割线,上下没有关联----

今天(7月26日),蓝莲花(Blue-Lotus)战队组建人之一的清华教授段海新介绍了一些网络黑产的黑话更让人大开眼界(蓝莲花有多牛,你可以搜索一下)。

下面进入自我测试时间,如果这些黑话你都能看懂,也许你是黑产研究学八级,要么就是经历很丰富:

菠菜

平马二中一

丁香五月天

咕噜咕噜出肉

段海新腼腆地介绍了一下第一个词,“菠菜”就是“博彩”的意思,后面三个他居然没解释。

好奇的雷锋网随便搜索了其中一个关键词,显示出如下的搜索结果,吓得我赶紧捂上了眼睛:

这位研究网络黑产的清华教授总结了一本《黑产黑话宝典》

装作看不懂的样子,继续听段教授讲故事。

疯狂SEO的黑产网站

网络黑产,无奇不有,黄赌毒尤甚。

这些黄赌毒网站为了在搜索界面抢占更有利的位置,往往会对一些权重较高的网站进行劫持,比如以edu.cn或gov.cn结尾的网站。

你只是想打开一个高校的官网或一个政府网站,一不小心就进入了不可言说的世界。

这位研究网络黑产的清华教授总结了一本《黑产黑话宝典》

你只能感叹一句:黑产推广真是丧心病狂。

然而,这并不算什么。黄赌毒和诈骗类网站为了推广自己,还会借助一种技术:蜘蛛池。

蜘蛛池就是一堆由垃圾域名组成的站群,在每个站点下都生成海量页面(抓一堆文本内容相互组合),页面模板与正常网页没多大区别。给那些未收录的页面,在短时间内提供大量的真实的外链,入口曝光多了,被抓取几率就大,收录率自然也就上去了,又因为是外链,所以在排名上也有一定的正向加分。

如果你再稍微了解一点搜索技术,说白了,就是人为制造了一张不断变大的网,把蜘蛛困在里面,让它不断的爬行网内的页面。

总而言之,就是网络黑产不断地用各种手段推广自己,争夺注意力。

噢!黑产有行业术语

为了打掉黑产网站,就要研究黑产网站的 SEO!也因此,段海新发现了伴随黑产网站出现的是“黑产词”:这些网站总有一些关键词像“标签”一样地贴在自己身上。

正经的说法是:

“黑产词”是伴随黑产出现的产品同义词及违法产品本身的关键词的统称。非法商贩和买家通过协定新的词汇表示一种产品,以此躲避监管。

这些隐蔽的“黑产词”通常会扭曲常用词含义,导致“外行人”无法理解其背后的含义,上面举例的一些即是“黑产词”。

这里有个小插曲值得一提。

清华大学有一个优雅的小院名为“怡春院”,曾作为校机关的办公场所,但是,扭曲的黑产居然把这个词变成了……额……这位研究网络黑产的清华教授总结了一本《黑产黑话宝典》通过搜索引擎查询“怡春院”这歌关键词,国内外主流搜索引擎搜出来的都是成人社区(Google除外)。

 他推测,也许这些搜索引擎比较真实地反映了用户搜索的需求。

这位研究网络黑产的清华教授总结了一本《黑产黑话宝典》

好消息:这里有本“黑话大全”

雷锋网了解到,被推广的“黑产词“可以通过自动化方式检测出来。人们在查询某个商品时,可能会反复触及到多个类似“黑产词”的网站页面,这些页面有可能包含恶意或欺诈内容。

好消息是,利用搜索引擎查询相关页面,并结合相关搜索扩展查询结果,最后采用算法可将结果融合判定是否为黑产词,段海新和他的研究团队做的就是这件事情(也许并不是为了报“怡春院”之仇)。

如何通过自动化手段检测一些新的黑产黑话?

先来了解一下黑产网站是怎么推广的。段海新介绍,比如,毒品商家找到做非法 SEO 引擎优化的推广商,根据产品和关键词进行优化,搜索引擎的爬虫自动到网站上抓取内容,用户搜索时,就有可能被指向这个毒品网站。

因此,段海新的研究团队想出的对抗办法是:

1.输入两部分数据,一部分是搜索引擎厂商提供的恶意URL列表,另一部分是从蜘蛛池推广网站中抓取的200多万页面,在这些页面中提取的关键词。

2.过滤掉这些词中的合法词汇(白词),然后再到搜索引擎中验证一次,是否触发了搜索引擎的报警。

3.利用搜索引擎厂商的相关搜索进行扩展。

最终,就能找到“正确的黑话”。

看上去,三个步骤很简单,但是隐藏了三个复杂的问题——

1.如何提取关键词?

黑产关键词可能会出现在黑产网站的任何一个页面,在尝试很多区域后,段海新发现,明文可点击区域的效果最明显。

你要问了,如果黑产把黑词放在别的地方是否可以逃避检测?

并没有那么容易,如果黑产想逃避检测,带来的副作用是, 搜索引擎的爬虫也无法搜索到这些关键词。

2.如何过滤白词?

用自然语言理解的方法非常困难,但段海新的团队发现了一个简单的方法:很多词都是从新闻热点中抓取过来,而这些新闻标题比较长,所以我们就把超过一定长度的新闻标题过滤掉。

3.如何判断是白词还是黑词?

比如,“清华”是一个白词,所以搜索结果比较干净,而且搜索引擎已经把清华的页面标注,但是搜索“菠菜”,三条以上的搜索结果标注为报警,那么,这个词就可能有问题。

因为“相关搜索”关联了用户的搜索行为,用户输入了一个词汇,但没有点击任何一个链接,又搜索了下一个词汇,那么证明第一个词汇和第二个词汇是相关的;用户搜索了一个关键词,点击了一个链接,那么证明这歌链接里的关键词与这个搜索词相关。

于是,段海新和研究团队得到了 40 万个推广的黑产词汇,确定其中 94%为黑词,去掉地名等"长尾"修饰词最终得到了 1500 个左右的核心词,手工分成了六类,并提取了相关的域名和URL 还有 100万-200万个。

为了验证这些“黑词”是真的黑词,他们在2个不同的搜索引擎中再次搜索新黑词,比如,搜索“***商人”,某歌前10页全是与赌博相关的结果,则可以证明 SEO 的效果“非常好”,这些词是有效的新黑词。

拿到了黑词之后,有什么用?

(当然是为了打掉黑产,报“怡春院”之仇咯这位研究网络黑产的清华教授总结了一本《黑产黑话宝典》

开个玩笑。

雷锋网了解到,段海新和他的同事们做了一个厚厚的研究报告,来讨论黑词的“用处”,他也简单介绍了几个用途:

1.基于黑产推广页面留下的电话号码,他们进行了统计,发现黑产电话号码归属地最多的是山东,徐玉玉案件发生在山东,也许不是偶然事件。

2.他们依据这些黑词对贴吧、论坛进行了统计,发现这些黑词在贴吧和论坛普遍存在,如果将这些黑词反馈给搜索引擎厂商,再次搜索,可以净化搜索结果,还可以净化论坛、网上商店。

3.利用现在扩展的黑词,在教育类和政府类网站进行搜索,发现大量被攻破的网站。

目前,段海新的研究团队正在与百度合作,应用其研究成果。

注:该文引用了段海新在2017网络安全生态峰会上的部分发言,该论坛由阿里巴巴和蚂蚁金服共同主办,干货十足。

--写在最后的话--

阿里巴巴的小伙伴告诉雷锋网(公众号:雷锋网),阿里也在淘宝上应用了相关对抗“黑话”的技术,在实际应用过程中,还要面对更多变得连亲妈都不认识的“黑词”这位研究网络黑产的清华教授总结了一本《黑产黑话宝典》,对抗升级更可怕。

于是,雷锋网决定,在接下来的某一期中,探讨阿里到底应用了哪些“黑词”检测与对抗技术,敬请期待。


   
  本文作者:李勤

本文转自雷锋网禁止二次转载,原文链接

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
基于蜻蜓优化算法的认知无线电网络的服务质量研究附Matlab代码
基于蜻蜓优化算法的认知无线电网络的服务质量研究附Matlab代码
30 0
深度学习目标检测网络轻量化研究现状
随着深度学习和计算机视觉的快速发展,各类基于卷积神经网络的目标检测算法不断地刷新标准检测数据集的最好性能成绩。目前主流的基于卷积神经网络的目标检测算法,包括各种两阶段检测器(RCNN,Fast RCNN,Faster RCNN,Mask RCNN,Trident Net)以及单阶段检测器(YOLO,SSD,Corner Net,Extreme Net)。尽管新算法不断刷新性能,但大多数目标检测算法其模型的参数动辄数十兆字节,在计算资源有限的移动终端等边缘设备中部署这样的大模型非常困难。因此,在保证一定准确率的前提下尽可能追求检测算法网络的轻量化具有重要的理论研究意义和应用价值。
588 0
2019年深度学习Top 5研究论文,一文Get硬核干货:XLNet、网络剪枝、StarGAN
近日,在人工智能领域拥有超过10年经验的Rubik’s Code公司评选出了2019年深度学习领域Top5论文。在2019年岁末,这些研究论文对于我们洞见深度学习的前沿进展及发展趋势具有重要的意义。
97 0
【菜鸟网络系列研究】第四方物流体如何统筹第三方物流
【菜鸟网络系列研究】第四方物流体如何统筹第三方物流
686 0
Nat. Commun. | 多层生物分子网络的鲁棒性研究
Nat. Commun. | 多层生物分子网络的鲁棒性研究
92 0
NeurIPS 2019:两种视角带你了解网络可解释性的研究和进展
一直以来,深度网络在图像识别,检测,语言等领域都有强大的能力。研究者们的重点都在如何提升网络性能上,很少有人能说清楚深度神经网络为何能够得到较好的泛化能力,有的研究者习惯从原理上来说明这个问题,有的研究者则会从中间结果来解释,当然这些观点都各有千秋。在 NeurIPS 2019 上,有些学者在网络的可解释性上发表了自己的研究。
104 0
SD-WAN在广电网络中的应用研究
“大禹治水”证明堵是不行的,疏导才是上策。各地广电网络公司对于网络优化还停留在几年前流控的思路,去抑制大流量应用和大流量用户,这往往会引起用户投诉,现在新的思路是网内自建缓存(Cache)和引入大互联网公司的CDN,但对于高端客户需要的游戏、总部专线和SAAS云,如何解决一直是一个难题,本文探讨了如何使用SD-WAN技术去帮助广电网络解决这些问题,留住高端客户,提高ARPU值,以及如何选择SD-WAN产品。
585 0
【.Net MF网络开发板研究-01】IP地址设定及简单web演示
在物联网时代,具备网络功能才是王道。新开发板除了具备以太网模块以外,还增加了USB Host模块,当然还增加了其它相关接口
638 0
【.Net MF网络开发板研究-02】Http Server功能演示
文章介绍的是真正的Http Server,支持GET和POST功能。同样我们还是在官方示例Http Server上进行修改,为了使示例更清晰,我们尽可能把代码做的更简单一些。
509 0
+关注
boxti
12535
文章
问答
来源圈子
更多
+ 订阅
文章排行榜
最热
最新
相关电子书
更多
可预期数据中心网络
立即下载
可编程网络视角的网络创新研究
立即下载
思科软件定义访问:实现基于业务意图的园区网络
立即下载