监控和审计IBM InfoSphere BigInsights和Cloudera Hadoop的访问权限

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
数据安全中心,免费版
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介:

http://www.ithov.com/server/124456.shtml

 

您也将学习一个仅适用于 IBM InfoSphere BigInsights 的快速启动监控实现。

大数据骚动主要集中在支持极限容量、速度和多样性的基础架构和该基础架构支持的实时分析功能中。虽然像 Hadoop 这样的大数据环境是相对较新的,但事实是在大数据环境中数据安全问题的关键是预先解决。哪里有数据,哪里就有可能存在隐私泄密、非授权访问或特权用户的不恰当访问。

整个大数据环境和更多传统的大数据管理架构中应该执行相同的合规性要求,没有理由因为技术尚不成熟、正在改进就减弱数据安全性。事实上,随着大数据环境吸收的数据越来越多,组织将面临极大的存储库(数据保存在其中)风险和威胁。

如果您在组织中负责数据安全,则可能需要回答以下问题,比如:

•谁正在运行特定的大数据请求?他们运行的是哪些 map-reduce 作业?他们试图下载所有的敏感数据吗?或者这是获取客户洞察的正常市场营销查询吗?
•是否具有可能是因为黑客试图通过算法访问敏感数据而造成的大量文件权限异常?
•这些作业是授权访问该数据的程序列表的一部分吗?或者已经开发了一些新应用程序而您之前并没有意识到?
您所需要的是能够将大数据应用程序和分析集成到一个现有数据安全基础架构中,而不是依赖自己开发的脚本和监控程序,自己开发脚本和监控程序可能既费力又容易出错,且常常会受到滥用。

本文将带您了解如何扩展 IBM InfoSphere Guardium V9(一个综合的数据活动监控和合规性解决方案)来包括 Hadoop 生态系统的访问监控和报告。

尽管本文包含了 InfoSphere Guardium 的高级概述,但并没有介绍如何安装和配置 InfoSphere Guardium Collector。本文将介绍如何配置 InfoSphere Guardium 以监控支持的 Hadoop 活动,并将其发送到 InfoSphere Guardium Collector 供安全分析师编制报告。您将会看到几个开箱即用的报告示例,以帮助您快速入门。

InfoSphere Guardium 简介

IBM InfoSphere Guardium 解决方案通过轻量级软件探测器连续监控数据库事务,如图 1 所示。

图 1. InfoSphere Guardium Data 活动监控


这些探测器(称为 S-TAP,用于软件)在操作系统内核级别无需依靠数据库审计日志即可监控所有数据库事务(包括特权用户的事务),这样可以确保职责分离。S-TAP 也不需要对数据库或其应用程序进行任何更改。

探测器将事务转发给网络上的一个加强的收集器(一个设备),在其中与之前定义的策略进行比较来探测违规操作。该系统可响应各种基于策略的行动,包括生成警报。

InfoSphere Guardium 支持各种各样的部署,从而支持非常大的且在地理上分散的基础架构。因为本文只是对 InfoSphere Guardium 进行了简单介绍,您可以查看 参考资料 部分来获取更多关于 InfoSphere Guardium 功能的链接。注意,并不是所有功能都可用于所有数据资源。

使用 InfoSphere Guardium 进行 Hadoop 监控的好处

使用 InfoSphere Guardium 可通过提供有针对性的、可操作的信息极大地简化您的审计就绪过程。试想一下,如果您目前的 Hadoop 审计就绪计划是基于压缩日志数据的,那么希望您永远不需要它,仅从时效性而言,您可能无法满足很多审计需求。鉴定分析毫无疑问是耗时的,而且需要浪费资源自己开发脚本,其实您更愿意将这些资源用在通过 Hadoop 创建业务优势上。

有了 InfoSphere Guardium,很多繁重的任务就可以交给您了。定义安全策略指定需要保存什么数据以及如何应对策略违规。数据事件直接写入 InfoSphere Guardium 收集器,特权用户甚至都没有机会访问并隐藏他们的踪迹。开箱即用的报告可以让您立即开始快速运行 Hadoop 监控,而且这些报告可以很容易通过定制来符合您的审计需求。

InfoSphere Guardium S-TAP 最初的设计目的是以较小的开销提高性能;毕竟,S-TAP 也用于监控产品数据库环境。有了 Hadoop,您将不太可能看到超过 3% 的开销,这对于大多数 HAdoop 工作负载来说微乎其微。

最后,InfoSphere Guardium 提供贯穿整个 Hadoop 堆栈的监控功能,从用户界面直到存储,如图 2 所示。

图 2. 整个 Hadoop 堆栈的数据活动监控的重要性


为什么这是最重要的?尽管 Hadoop 中的很多活动都分解成 MapReduce 和 HDFS 了,但是在这个级别上,您可能无法知道堆栈中级别更高的用户真正想做的是什么,或者甚至不知道用户是谁。这类似于显示一些磁盘段 I/O 操作,而不是一个数据库的审计跟踪。因此,只有提供不同级别的监控,才有可能理解活动,才能够审计直接通过堆栈中的较低点进入的活动。

Hadoop 活动监控

可被监控的事件包括:

•会话和用户信息。
•HDFS 操作 – 命令(cat、tail、chmod、chown、expunge,等等)。
•MapReduce 作业 - 作业、操作、权限。
•异常,比如授权故障。
•Hive/HBase 查询 - 改变、计数、创建、删除、获取、放置、列出,等等。
以下示例描述了如何在 InfoSphere Guardium 报告中显示一些简单的 Hadoop 命令。

 其他页见下URL

原文出自【风信网】,转载请保留原文链接:http://www.ithov.com/server/124456.shtml




本文转自茄子_2008博客园博客,原文链接:http://www.cnblogs.com/xd502djj/p/4155116.html,如需转载请自行联系原作者。


相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
1月前
|
分布式计算 资源调度 监控
监控Hadoop指标
详细介绍了Hadoop指标的概念、类型和收集方法,包括JVM、RPC、DFS、YARN以及用户和组指标,以及如何配置Hadoop以收集这些指标,从而帮助监控、调试和优化Hadoop集群的性能。
43 2
监控Hadoop指标
|
1月前
|
分布式计算 监控 Hadoop
监控Hadoop集群实战篇
介绍了监控Hadoop集群的方法,包括监控Linux服务器、Hadoop指标、使用Ganglia监控Hadoop集群、Hadoop日志记录、通过Hadoop的Web UI进行监控以及其他Hadoop组件的监控,并提供了相关监控工具和资源的推荐阅读链接。
48 2
|
5月前
|
分布式计算 监控 Hadoop
Hadoop权限问题
【5月更文挑战第6天】Hadoop权限问题
71 1
|
5月前
|
分布式计算 监控 Hadoop
Ganglia监控Hadoop与HBase集群
Ganglia监控Hadoop与HBase集群
|
5月前
|
存储 分布式计算 监控
Hadoop的NameNode的监控与副本管理
【4月更文挑战第15天】NameNode是Hadoop HDFS的关键组件,负责元数据管理和监控,确保数据安全、可靠和性能。监控包括NameNode的状态、资源使用和性能,以保证集群稳定性。NameNode在副本管理中负责副本创建、分布、维护和删除,确保数据冗余和容错性。有效的监控和副本管理策略对Hadoop集群的高效运行至关重要。
81 2
|
存储 SQL 弹性计算
手把手教你使用自建Hadoop访问全托管服务化HDFS(OSS-HDFS服务)
1. 服务介绍OSS-HDFS服务(JindoFS 服务)是一款云原生数据湖3.0存储产品,基于统一的元数据管理能力,在完全兼容 HDFS 文件系统接口的同时,提供充分的 POSIX 能力支持,能更好的满足大数据和 AI 领域丰富多样的数据湖计算场景。通过OSS-HDFS服务,无需对现有的 Hadoop/Spark 大数据分析应用做任何修改,通过简单的配置就可以像在原生HDFS中那样管理和访问数据
手把手教你使用自建Hadoop访问全托管服务化HDFS(OSS-HDFS服务)
|
SQL 分布式计算 运维
Hadoop生态系统中的监控与管理工具:Apache Ambari和Apache Oozie的功能解析
Hadoop生态系统中的监控与管理工具:Apache Ambari和Apache Oozie的功能解析
|
分布式计算 Hadoop Java
Hadoop/Spark 访问 OSS 加速 | 学习笔记
快速学习Hadoop/Spark 访问 OSS 加速。
458 0
|
机器学习/深度学习 分布式计算 安全
大规模集群下Hadoop NameNode如何承载每秒上千次的高并发访问
大规模集群下Hadoop NameNode如何承载每秒上千次的高并发访问
294 0
大规模集群下Hadoop NameNode如何承载每秒上千次的高并发访问
|
消息中间件 SQL 分布式计算
Cloudera Enterprise 6.0发布【集成Hadoop3.0】
Cloudera Enterprise 6.0发布【集成Hadoop3.0】
124 0

相关实验场景

更多
下一篇
无影云桌面