基于大数据审计的信息安全日志分析法

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
日志服务 SLS,月写入数据量 50GB 1个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介:

大数据信息安全日志审计分析方法

  1.海量数据采集。大数据采集过程的主要特点和挑战是并发数高,因此采集数据量较大时,分析平台的接收性能也将面临较大挑战。大数据审计平台可采用大数据收集技术对各种类型的数据进行统一采集,使用一定的压缩及加密算法,在保证用户数据隐私性及完整性的前提下,可以进行带宽控制。

  2.数据预处理。在大数据环境下对采集到的海量数据进行有效分析,需要对各种数据进行分类,并按照一定的标准进行归一化,且对数据进行一些简单的清洗和预处理工作。对于海量数据的预处理,大数据审计平台采用新的技术架构,使用基于大数据集群的分布式计算框架,同时结合基于大数据集群的复杂事件处理流程作为实时规则分析引擎,从而能够高效并行地运行多种规则,并能够实时检测异常事件。

  3.统计及分析。按照数据分析的实时性,分为实时数据分析和离线数据分析。大数据平台在数据预处理时使用的分布式计算框架Storm就非常适合对海量数据进行实时的统计计算,并能够快速反馈统计结果。Storm框架利用严格且高效的事件处理流程保证运算时数据的准确性,并提供多种实时统计接口以使用。

  4.数据挖掘。数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识,所以它所得到的信息具有未知、有效、实用三个特征。与传统统计及分析过程不同的是,大数据环境下的数据挖掘一般没有预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,从而起到预测的效果,并进一步实现一些高级别数据分析的需求。

大数据分析信息安全日志的解决方案

  统一日志审计与安全大数据分析平台能够实时不间断地将用户网络中来自不同厂商的安全设备、网络设备、主机、操作系统、数据库系统、用户业务系统的日志和警报等信息汇集到管理中心,实现全网综合安全审计;同时借助大数据分析和挖掘技术,通过各种攻击模型场景发现各种网络攻击行为、用户异常访问和操作行为。

  1.系统平台架构。以国内某大数据安全分析系统为例,其架构包括大数据采集平台、未知威胁感知系统、分布式实时计算系统(Storm)、复杂事件处理引擎(Esper)、Hadoop平台、分布式文件系统(HDFS)、分布式列数据库(Hbase)、分布式并行计算框架(Map/Reduce、Spark)、数据仓库(Hive)、分布式全文搜索引擎(ElasticSearch)、科学计算系统(Euler)。这些技术能够解决用户对海量事件的采集、处理、分析、挖掘和存储的需求。

  如图1所示,系统能够实时地对采集到的不同类型的信息进行归一化和实时关联分析,通过统一的控制台界面进行实时、可视化的呈现,协助安全管理人员迅速准确地识别安全事件,提高工作效率。

1-1.jpg
图1 解决方案平台架构及其组件

  2.实现功能。系统能够实现的功能包括:审计范围覆盖网络环境中的全部网络设备、安全设备、服务器、数据库、中间件、应用系统,覆盖200多种设备和应用中的上万类日志,快速支持用户业务系统日志审计;系统收集企业和组织中的所有安全日志和告警信息,通过归一化和智能日志关联分析引擎,协助用户准确、快速地识别安全事故;通过系统的安全事件攻击并及时做出安全响应操作,为用户的网络环境安全提供保障;通过已经审计到的各种审计对象日志,重建一段时间内可疑的攻击事件序列,分析攻击路径,帮助安全分析人员快速发现攻击源;整个Hadoop的体系结构主要通过分布式文件系统(HDFS)来实现对分布式存储的底层支持。

  图2描述了统一日志审计系统的可扩展性部署,其部署方式十分灵活,对网络的适应性极强,既能够支持集中式的部署方式,也支持跨区域、分级分层、物理/逻辑隔离的大规模网络的部署方式,是可水平扩展的海量事件采集、存储、分析平台。

1-2.jpg
图2 统一日志审计系统的可扩展性部署

  3.应用场景。上述系统可解决传统日志审计无法实现的日志关联分析和智能定位功能。如在企业的网络系统中,大范围分布的网络设备、安全设备、服务器等实时产生的日志量非常大,要从其中提取想要的信息非常困难,而要从设备之间的关联来判断设备故障也将是一大难点。例如,某企业定位某设备与周围直连设备的日志消息相关联起来判断该设备是否存在异常或故障,如对于其中一台核心交换机SW1,与之直连的所有设备如果相继报接口down的日志,则可定位该设备SWl为故障设备,此时应及时做出响应。而传统数据难以通过周围设备的关联告警来定位该故障,大数据审计平台则是最好的解决方法。

  大数据分析方法可以利用实体关联分析、地理空间分析和数据统计分析等技术来分析实体之间的关系,并利用相关的结构化和非结构化的信息来检测非法活动。对于集中存储起来的海量信息,可以让审计人员借助历史分析工具对日志进行深度挖掘、调查取证、证据保全。

 

摘自:http://www.cfc365.com/technology/security/2016-06-28/13893.shtml














本文转自张昺华-sky博客园博客,原文链接:http://www.cnblogs.com/bonelee/p/6649858.html,如需转载请自行联系原作者


相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
1月前
|
存储 消息中间件 大数据
大数据-69 Kafka 高级特性 物理存储 实机查看分析 日志存储一篇详解
大数据-69 Kafka 高级特性 物理存储 实机查看分析 日志存储一篇详解
35 4
|
1月前
|
存储 Prometheus NoSQL
大数据-44 Redis 慢查询日志 监视器 慢查询测试学习
大数据-44 Redis 慢查询日志 监视器 慢查询测试学习
25 3
|
1月前
|
存储 消息中间件 大数据
大数据-70 Kafka 高级特性 物理存储 日志存储 日志清理: 日志删除与日志压缩
大数据-70 Kafka 高级特性 物理存储 日志存储 日志清理: 日志删除与日志压缩
39 1
|
1月前
|
存储 消息中间件 大数据
大数据-68 Kafka 高级特性 物理存储 日志存储概述
大数据-68 Kafka 高级特性 物理存储 日志存储概述
26 1
|
1月前
|
存储 分布式计算 NoSQL
大数据-136 - ClickHouse 集群 表引擎详解1 - 日志、Log、Memory、Merge
大数据-136 - ClickHouse 集群 表引擎详解1 - 日志、Log、Memory、Merge
40 0
|
3月前
|
存储 分布式计算 大数据
【Flume的大数据之旅】探索Flume如何成为大数据分析的得力助手,从日志收集到实时处理一网打尽!
【8月更文挑战第24天】Apache Flume是一款高效可靠的数据收集系统,专为Hadoop环境设计。它能在数据产生端与分析/存储端间搭建桥梁,适用于日志收集、数据集成、实时处理及数据备份等多种场景。通过监控不同来源的日志文件并将数据标准化后传输至Hadoop等平台,Flume支持了性能监控、数据分析等多种需求。此外,它还能与Apache Storm或Flink等实时处理框架集成,实现数据的即时分析。下面展示了一个简单的Flume配置示例,说明如何将日志数据导入HDFS进行存储。总之,Flume凭借其灵活性和强大的集成能力,在大数据处理流程中占据了重要地位。
84 3
|
3月前
|
监控 安全 Linux
在Linux中,如何查看和审计系统日志文件以检测异常活动?
在Linux中,如何查看和审计系统日志文件以检测异常活动?
|
1月前
|
存储 机器学习/深度学习 分布式计算
大数据技术——解锁数据的力量,引领未来趋势
【10月更文挑战第5天】大数据技术——解锁数据的力量,引领未来趋势
|
4天前
|
存储 分布式计算 数据挖掘
数据架构 ODPS 是什么?
数据架构 ODPS 是什么?
50 7
|
4天前
|
存储 分布式计算 大数据
大数据 优化数据读取
【11月更文挑战第4天】
15 2

热门文章

最新文章