BlackHat2017热点之DefPloreX---大规模网络犯罪取证的机器学习工具

简介: 本文讲的是BlackHat2017热点之DefPloreX---大规模网络犯罪取证的机器学习工具,Black Hat USA 2017是在通过四天(7月22日-7月25日)的技术培训后才举办的会议,为期两天的会议是在7月26日-7月27日召开的。
本文讲的是 BlackHat2017热点之DefPloreX---大规模网络犯罪取证的机器学习工具

前言

Black Hat USA 2017是在通过四天(7月22日-7月25日)的技术培训后才举办的会议,为期两天的会议是在7月26日-7月27日召开的。

在为期四天的培训中,培训者除了可以综合学习文件系统理论、应用分析、电子邮件、照片取证、事件日志审查等内容,还可以对Windows 8、Windows 10和其它操作系统的数字取证与事件响应方法进行了解。今天我们嘶吼就为大家具体剖析一下其中的一个工具——DefPloreX。

DefPloreX—大规模网络犯罪取证的机器学习工具

DefPloreX是一种大规模网络犯罪取证的机器学习工具,使用机器学习和可视化技术汇总开源库的数据,将非结构化数据转化为有意义的高级描述,从而提供事件、攻击和漏洞的实时信息,并将其压缩成适合高效大规模电子犯罪取证和调查的可浏览对象。

DefPloreX最有趣的一部分是,它将类似的被攻击的页面自动组合成一组,再进一步从中寻找相关的网络事件。整个过程只需要对数据进行一次传递,因为使用的聚类技术本质上是并行的,而不是内存限制。 DefPloreX提供基于文本和网络的用户操作界面,可以使用简单的语言查询进行调查和取证。由于它是基于弹性搜索,DefPloreX生成的数据可以轻松地与其他系统集成。

具体案例分析

以下是分析师如何使用DefPloreX调查“Operation France”(“#opfrance”作为与之相关联的Twitter处理程序)的活动的示例。这个运动是由在线的穆斯林活动分子运作的,目的是支持激进的伊斯兰教。

如下图所示,这一运动在4年(2013 – 2016年)中针对过1313个网站,其中主要针对法国域名。 DefPloreX分析了攻击中参与的人员和使用的头像。其中一些成员明确支持激进的伊斯兰教徒(例如恐怖主义)对法国的袭击。

BlackHat2017热点之DefPloreX---大规模网络犯罪取证的机器学习工具

BlackHat2017热点之DefPloreX---大规模网络犯罪取证的机器学习工具

BlackHat2017热点之DefPloreX---大规模网络犯罪取证的机器学习工具

BlackHat2017热点之DefPloreX---大规模网络犯罪取证的机器学习工具

DefPloreX已经公开发布了

在以下操作中DefPloreX可以很好的帮助分析人员:

1.从弹性指数导入和导出通用数据

2.完善索引的各种属性

3.以自动并行的方式访问网页,并提取数字和视觉特征,捕获HTML页面的结构及其呈现时的外观

4. 后期处理中对数字和视觉特征进行提取以描述每个网页的紧凑表示(compact representation)

5.使用紧凑表示来队原始网页进行重新调整,将它们分组成类似的页面组

6.执行弹性索引的通用浏览和查询。

DefPloreX的架构如下图所示:

BlackHat2017热点之DefPloreX---大规模网络犯罪取证的机器学习工具

利用DefPloreX,研究人员可以从每个网页中收集到同一个事件的两个不同侧面——页面的“静态”视图(例如,非解释资源,脚本,文本)和 “动态”视图(例如,渲染页面,DOM修改等)。完整版本的DefPloreX可以提取URL,电子邮件地址,社交网络昵称和句柄,主题标签,图像,文件元数据,汇总文本和其他信息。应该说,这些数据已经可以完整的描述一个被攻击的网页的主要特征,如下图所示,是从URL收集的数据。

BlackHat2017热点之DefPloreX---大规模网络犯罪取证的机器学习工具

如上所述,DefPloreX已经解决了如何找到一组相关的攻击网页(例如,黑客行为主义活动)来作为典型的数据挖掘。我们假设这些页面之间有重复和相似的特征,从而可以捕获和使用作为分组特征。例如,我们假设相同的攻击者会在同一个攻击系列中重复使用相同的网页片段(尽管最小的变体)。我们可以通过分析每个页面(静态和动态视图)从获得的数据中提取数值和分类特征来捕获相关的属性方面,下图就是从每个URL捕获的特征。

BlackHat2017热点之DefPloreX---大规模网络犯罪取证的机器学习工具

DefPloreX还具备了一个 “数据压缩”的功能,安全研究人员可以用它来导出每个记录的紧凑表示,然后使用这种紧凑的表示来实现快速分组。在我们以上所述的例子中,这个记录是一个被攻击的页面,但这个方法可以应用到其他域。当应用于数字特征时,通过仅使用有限的一组分类值(即,低,中等,高),紧凑表示就可以代表任意范围的实数。

弹性搜索本身支持执行从数值到分类值的转换所需的统计原语(例如百分位数),如果它应用于最初分类的紧凑表示(例如,网页中使用的字符编码),则此紧凑表示会代表所有现有的编码方案(例如“windows-1250”,“iso- *”),其中的地理区域通常使用每种编码来表示(例如,英语词汇,西里尔文,希腊文)。对于口语,顶级域名(TLD)等也可以这样做。

基于Web的UI基于React,由Flask编写的轻量级REST API支持。基于网络的UI本质上是无限变化的电子表格,因为智能分页可以将其扩展到任意数量的记录。基于Web的UI实现的主要任务是浏览分组和记录。例如,为了发现由同一网络犯罪分子执行的网络攻击 ,我们将查询DefPloreX来显示最多十个攻击者的分类,并检查每个分类的活动时间轴,以查看活动的周期性规律来并揭示同时执行攻击之间的关系。

在其所有操作中,DefPloreX会将内存量保持在最低限度,而不会阻碍其他性能。 DefPloreX可以在一个简单的笔记本电脑上运行的非常良好,但可以在更多的计算资源可用时进行扩展。

BlackHat2017热点之DefPloreX---大规模网络犯罪取证的机器学习工具

BlackHat2017热点之DefPloreX---大规模网络犯罪取证的机器学习工具

BlackHat2017热点之DefPloreX---大规模网络犯罪取证的机器学习工具

BlackHat2017热点之DefPloreX---大规模网络犯罪取证的机器学习工具

DefPloreX的具体下载地址如下:

https://github.com/trendmicro/defplorex

除了DefPloreX外, Black Hat USA 2017有关“数字取证与事件响应”的主题还有一些培训和其他具体的成果。

Windows企业事件响应

“Windows企业事件响应”介绍了最新的Windows分析探测工具。培训时,会模拟实际的攻击并为培训人员提供操做Windows系统和服务器的机会。

网络取证:持续监控与侦测

“网络取证:持续监控与测量”培训除了介绍相关工具外,还帮助培训者了解如何提取并保存安全、隔离环境中的网络证据。课程依赖培训者对TCP/IP网络和Linux系统的了解防止社会工程攻击,并接收网络取证专家专为网络取证培训者设计的全负荷取证工作站。

Revoke-Obfuscation:实现PowerShell混淆检测

Revoke-Obfuscation旨在解决PowerShell漏洞,并缓解嵌入式攻击。虽然PowerShell配备了反恶意软件检测工具,但对黑客来说,仍有办法绕过检测并实施攻击。所谓的Revoke-Obfuscation方法,就是利用统计分析、字符分配和命令调用检查的PowerShell框架。

Ochko123

美国政府就是利用该方法抓捕的俄罗斯黑客——罗曼•谢列兹尼奥夫(Roman Seleznev)。在这起复杂的关于网络安全取证和追捕中,美国的安全专家就是利用该方法模拟犯罪份子的数字足迹,进而获取他的具体犯罪过程和所使用的工具。

CyBot—开源威胁情报的分析

CyBot目前以低于35美元的价格汇集了多个网络端点的数据。CyBot是由以色列一家初创的网络安全公司Cronus Cyber开发的,CyBot采用预测性攻击路径场景解决方案,它可以模拟人类黑客的行为,实时发现、预测、分析网络攻击的风险和漏洞,然后再针对发现的威胁进行安全保护策略的调整。其独创点在于利用算法模拟黑客行为进行不间断的渗透测试,对所有基于IP的基础设施、应用和数据库进行扫描,可随时提供一幅动态的风险地图,让企业知道如何缓和网络攻击的风险。

Yalda 

Yalda能够自动对大量的相关数据进行收集工具并帮助安全人员进行自动化扫描、检测并对文件扩展数据进行挖掘。




原文发布时间为:2017年7月30日
本文作者:luochicun
本文来自云栖社区合作伙伴嘶吼,了解相关信息可以关注嘶吼网站。
目录
相关文章
|
5天前
|
人工智能 搜索推荐 决策智能
不靠更复杂的策略,仅凭和大模型训练对齐,零样本零经验单LLM调用,成为网络任务智能体新SOTA
近期研究通过调整网络智能体的观察和动作空间,使其与大型语言模型(LLM)的能力对齐,显著提升了基于LLM的网络智能体性能。AgentOccam智能体在WebArena基准上超越了先前方法,成功率提升26.6个点(+161%)。该研究强调了与LLM训练目标一致的重要性,为网络任务自动化提供了新思路,但也指出其性能受限于LLM能力及任务复杂度。论文链接:https://arxiv.org/abs/2410.13825。
32 12
|
1月前
|
机器学习/深度学习 Python
机器学习中评估模型性能的重要工具——混淆矩阵和ROC曲线。混淆矩阵通过真正例、假正例等指标展示模型预测情况
本文介绍了机器学习中评估模型性能的重要工具——混淆矩阵和ROC曲线。混淆矩阵通过真正例、假正例等指标展示模型预测情况,而ROC曲线则通过假正率和真正率评估二分类模型性能。文章还提供了Python中的具体实现示例,展示了如何计算和使用这两种工具来评估模型。
57 8
|
1月前
|
机器学习/深度学习 人工智能 数据挖掘
打破传统:机器学习与神经网络获2024年诺贝尔物理学奖引发的思考
诺贝尔物理学奖首次授予机器学习与神经网络领域,标志该技术在物理学研究中的重要地位。本文探讨了这一决定对物理学研究的深远影响,包括数据分析、理论物理突破及未来科研方向的启示,同时分析了其对学术跨界合作与全球科研产业的影响。
54 4
|
1月前
|
机器学习/深度学习 数据采集 算法
机器学习在医疗诊断中的前沿应用,包括神经网络、决策树和支持向量机等方法,及其在医学影像、疾病预测和基因数据分析中的具体应用
医疗诊断是医学的核心,其准确性和效率至关重要。本文探讨了机器学习在医疗诊断中的前沿应用,包括神经网络、决策树和支持向量机等方法,及其在医学影像、疾病预测和基因数据分析中的具体应用。文章还讨论了Python在构建机器学习模型中的作用,面临的挑战及应对策略,并展望了未来的发展趋势。
130 1
|
1月前
|
机器学习/深度学习 自然语言处理 算法
深入理解机器学习算法:从线性回归到神经网络
深入理解机器学习算法:从线性回归到神经网络
|
2月前
|
机器学习/深度学习 并行计算 数据挖掘
R语言是一种强大的统计分析工具,广泛应用于数据分析和机器学习领域
【10月更文挑战第21天】R语言是一种强大的统计分析工具,广泛应用于数据分析和机器学习领域。本文将介绍R语言中的一些高级编程技巧,包括函数式编程、向量化运算、字符串处理、循环和条件语句、异常处理和性能优化等方面,以帮助读者更好地掌握R语言的编程技巧,提高数据分析的效率。
62 2
|
1月前
|
机器学习/深度学习 人工智能 安全
人工智能与机器学习在网络安全中的应用
人工智能与机器学习在网络安全中的应用
82 0
|
2月前
|
机器学习/深度学习 人工智能 算法
【玉米病害识别】Python+卷积神经网络算法+人工智能+深度学习+计算机课设项目+TensorFlow+模型训练
玉米病害识别系统,本系统使用Python作为主要开发语言,通过收集了8种常见的玉米叶部病害图片数据集('矮花叶病', '健康', '灰斑病一般', '灰斑病严重', '锈病一般', '锈病严重', '叶斑病一般', '叶斑病严重'),然后基于TensorFlow搭建卷积神经网络算法模型,通过对数据集进行多轮迭代训练,最后得到一个识别精度较高的模型文件。再使用Django搭建Web网页操作平台,实现用户上传一张玉米病害图片识别其名称。
78 0
【玉米病害识别】Python+卷积神经网络算法+人工智能+深度学习+计算机课设项目+TensorFlow+模型训练
|
2月前
|
机器学习/深度学习 人工智能 算法
#如何看待诺贝尔物理学奖颁给了机器学习与神经网络?#
2024年诺贝尔物理学奖首次颁发给机器学习与神经网络领域的研究者,标志着这一技术对物理学及多领域应用的深远影响。机器学习和神经网络不仅在生产、金融、医疗等行业展现出高效实用性,还在物理学研究中发挥了重要作用,如数据分析、模型优化和物理量预测等,促进了物理学与人工智能的深度融合与发展。
40 0
|
1月前
|
机器学习/深度学习 算法 数据挖掘
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构。本文介绍了K-means算法的基本原理,包括初始化、数据点分配与簇中心更新等步骤,以及如何在Python中实现该算法,最后讨论了其优缺点及应用场景。
104 4