《数据驱动安全:数据安全分析、可视化和仪表盘》一3.4 探索数据

简介: 本节书摘来华章计算机《数据驱动安全:数据安全分析、可视化和仪表盘》一书中的第3章 ,第3.4节,[美]杰·雅克布(Jay Jacobs)鲍布·鲁迪斯(Bob Rudis) 著 薛杰 王占一 张卓 胡开勇 蒋梦飏 赵爽 译, 更多章节内容可以访问云栖社区“华章计算机”公众号查看。

本节书摘来华章计算机《数据驱动安全:数据安全分析、可视化和仪表盘》一书中的第3章 ,第3.4节,[美]杰·雅克布(Jay Jacobs)鲍布·鲁迪斯(Bob Rudis) 著 薛杰 王占一 张卓 胡开勇 蒋梦飏 赵爽 译, 更多章节内容可以访问云栖社区“华章计算机”公众号查看。

3.4 探索数据

你大致了解变量及其形式,现在是时候把你的安全领域专业知识加进来以探索与发现数据中的奥秘。这将促使你提出和回答好的问题。即便有近26万条记录,也会有很多工具随时告知你数据中有什么内容。
在开始深入探索数据之前,我们总结了一些关于数据的信息:
Reliability、Risk和x是整型。
IP、Type、Country、Locale和Coords是字符串。
IP地址使用点分四组表示法存储,而不是主机名或十进制格式。
每个记录与唯一的IP地址关联,所以共有258 626个IP地址(在本次下载中)。
每个IP地址已经通过Coords字段被地理定位为经度和纬度,且记录在同一个字段中并用逗号分隔。如果你希望使用该字段,就必须进一步解析。
当你有描述数量的变量(这是一种奇特的方式说“代表数量的数字”),你可以尝试分析变量的基本描述性统计数据。这些统计数据包括:
最小和最大值;求差可以得到范围(范围=最大值–最小值)。
中位数(数据集正中的数值)。
第一和第三个四分位数(是第25和75百分位数,或者你可以认为它是第一个半部分数据的中间值和最后一个半部分数据的中间值)。
均值(所有数据值求和然后除以数据数量)。
你可以认为最大值、最小值、中位数和两个四分位数是一个数据集的五数概括法(由Tukey发明),并且两种语言都有内置函数计算它们,即R中的summary()和Python中的describe(),两种语言同样有函数可以计算均值。请阅读Reliability和Risk(程序清单3-7和程序清单3-8)两个主要数据行的概要。
程序清单3-7
image

程序清单3-8
image
image

正如这些结果,Reliability列可能存在于[1…10]的范围(http://www.slideshare.net/alienvault/building-an-ip-reputation-engine-tracking-the-miscreants的第十页),而Risk列(AlienVault说其可能的归格范围是[1…10]),实际上只存在于[1…7]范围。你也可以看到,Risk和Reliability都以2为中心。
你现在可以深入一些,共同使用Reliability、Risk、Type和Country这些字段定义数据集的种类。尽管我们认为Reliability和Risk仅是数值,但是它们实际上是序数,这意味着各列中的每个项都可以赋予一个整数,在Reliability和Risk中数值4实际意义不一定指的是数值2的两倍,这意味着当Reliability和Risk的值为4时仅表示相比于它们值为2时程度更高。换言之,这些数据更像是标签而不是仅代表数值大小。分类数据也看做“标称值”(nominal values)、“因子”(factor),或在某些情况下是“定性变量”(qualitative variables)。

“数据”不仅仅是“数据”吗?
你可能已经习惯了从整体的角度处理数据,认为日志文件内容和数据库提取的信息仅仅是数据。如果你习惯了处理电子表格形式的数据(如Microsoft的Excel),你很难改变对它的固有认识。实际上,单个的数据元素可以分为两类:定量(quantitative)数据和定性(qualitative)数据。定量数据元素代表实际数量,而定性数据(或分类数据)元素是对性质的描述。
TCP或UDP的端口号是数字,但是它们不代表数量;当使用数据命名实体时,它们只是分类信息的一部分。接口“22”实际上并不大于或小于接口“7070”。相反,“传输的字节数”或者“染毒主机数”代表了具体数量并且可以对比大小。
分类数据在R中作为factor进行操作被控制,在Python中作为pandas Categorical类。实际上R和Python都有丰富的函数来实现因子的组建、分割、提取和分析。在程序清单3-4中,在扫描了AlienVault IP信誉数据文件后,R做出了合理的推测,IP、类型、国家和区域在本质上都是分类。国家名称和恶意软件类型简单定义为类型(统计方面的标称数据)。你也会发现R不能正确地识别出Reliability和Risk的定性性质,尽管有意义明确的序列数值,例如风险级别“5”高于“1”,但是序列数值不代表具体数量。(这意味着你不能计算Risk的均值或与其他Risk值做减法。)

在R中,定性和定量变量的差别由summary()函数自动处理(见程序清单3-9),而且它会显示每个类别的计数。这个工作对定量变量不起作用。当变量中存在太多独立数值时,为了得到计数,可以使用table()函数。在Python中,你可以生成一个简短的函数,利用pandas转换数据帧的列(它只是一个数组),将其转换为一个命名恰当的Categorical对象(见程序清单3-10),你可以适当调整来得到相似的有用输出。
程序清单3-9
image

程序清单3-10
image
image
image
image

这些数值表能帮助你了解数据的概况,但是一个数据分布图能提供一个全新的视角,让人们了解到单纯的数字不足以展示数据。我们以一个简单的柱状图给出Country、Risk和Reliability因子快速直观的概述(分别参见图3-2到图3-4)。你将需要单独运行每个R代码来得到每幅图。
程序清单3-11
image

程序清单3-12
image
image


image

程序清单3-13
image


image


这些可视化程序的Python版本在程序清单3-14、程序清单3-15和程序清单3-16中。
程序清单3-14
image
image

程序清单3-15
image

程序清单3-16
image

图3-5所示的国家图说明了确实有一些国家明显存在更多的恶意节点,你可以通过一个时刻的数量来观察列表中前十个国家的数量比例(程序清单3-17和程序清单3-18)。
程序清单3-17
image


image


image


程序清单3-18
image

这个快速计算展示了列表中中国和美国共统计出大约46%的恶意节点,而俄罗斯大约有2.4%。在这里,探索的关键点之一是如何比较各种行业报告,因为你期望这些国家中的多个都出现在前十位。然而,一些国家的节点数量显示出数据集可能有一些偏差。你还可以看到,3%的节点不能地理定位(在R程序输出中的[other]分类)。
第5章包含了IP地址的地理定位的挑战与陷阱,所以我们不在这里进一步讨论。
对于Risk变量,你会发现大多数节点的风险都是微不足道的(非常低以至于可以忽略)。有一些其他元素很有特点,实际上没有端点在1、5、6或7类别中,同时也没有端点存在于剩余的定义范围[8-10]中。这种异常是一种标志,值得深入挖掘,这个异常是数据集内容不均衡的直接证据。
最后,节点的Reliability率也显得有些偏斜(也就是其分布偏向了均值或呈集中趋势)。大部分数值被分类到级别2和级别4中,大于级别4的评级不多。可信度评级完全没有级别3,这个现象应引发一些思考。它也许说明了评级分配的一种系统缺陷,也可能你至少有两个独立的数据集。无论如何,大量数据集中在级别2和级别4而少量集中在级别3这个现象是一个标志,你应进一步探索,因为它有些奇怪并令人惊讶。
你现在有些线索并对数据核心内容的构成有了更清晰的认识。这个初步的分析给你足够的信息来制定研究问题。

相关文章
|
1月前
|
存储 安全 数据管理
数据安全之认识数据资产管理平台
随着企业数字化转型的深入,数据已经成为企业的重要资产。企业需要更加有效地管理和利用数据,以支持业务决策、优化运营和提高竞争力。本文让我们一起来认识数据资产及数据资产管理平台。
64 1
|
7月前
|
SQL 安全 网络安全
03-数据安全-ACA-01-数据安全中心_数据审计_数据脱敏_数据库防火墙(一)
03-数据安全-ACA-01-数据安全中心_数据审计_数据脱敏_数据库防火墙(一)
96 0
|
3月前
|
存储 安全 算法
保护数据安全的重要性:安全加密算法在数据保护中的应用
在数字时代,数据的安全性越来越受到重视。本文将探讨安全加密算法作为一种关键的数据保护手段的重要性和应用。通过分析现有的加密算法和其在数据保护中的角色,我们可以更好地理解如何保护数据免受黑客攻击和隐私泄露。
|
4月前
|
运维 安全 容灾
亿格名片 | 小红书:「红线数据不外泄」准则下的数据安全“种草”攻略
小红书的安全是紧贴业务类型与发展阶段演进开展的,从内容安全再到技术安全、网络安全等方面不断迈进。区别于传统围绕防止黑客入侵的安全建设思路,保障数据安全以及管理访问控制是小红书高度关注的要点,防止红线数据外泄是终态目标。当下,随着数据安全等政策法规的落地,数据安全成了备受关注的领域,在实现我们防护红线数据不外泄的核心目标,且保障员工工作效率及体验,我们选择性地舍去了传统云桌面、沙箱之类比较“重”的工具。基于此,共创落地零信任数据安全体系,集成至内部安全办公系统中,替代3、4个安全软件,实现最小权限访问以及数据分类分级、流转、分发等全方位管控,这样既有效保护红线数据、又不影响员工效率与体验。
亿格名片 | 小红书:「红线数据不外泄」准则下的数据安全“种草”攻略
|
5月前
|
存储 安全
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——一、数据建设与治理的现状与诉求
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——一、数据建设与治理的现状与诉求
|
5月前
|
运维 分布式计算 监控
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——1. 用中台方法论构建与治理企业级好数据概览
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——1. 用中台方法论构建与治理企业级好数据概览
301 0
|
5月前
|
数据建模 供应链 定位技术
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——2. 规划:高屋建瓴,总览企业数据体系
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——2. 规划:高屋建瓴,总览企业数据体系
|
5月前
|
数据采集 数据安全/隐私保护 监控
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——5. 资产治理:高价值数据,助力企业高质量发展
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——5. 资产治理:高价值数据,助力企业高质量发展
186 0
|
5月前
|
SQL 数据可视化 数据挖掘
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——7. 自助分析:灵活分析,快速释放数据价值
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——7. 自助分析:灵活分析,快速释放数据价值
114 0
|
5月前
|
存储 供应链
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——8. 资产目录:主题式的目录,打造精品数据
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——8. 资产目录:主题式的目录,打造精品数据

热门文章

最新文章