E-MapReduce大数据安全实践

本文涉及的产品
EMR Serverless StarRocks,5000CU*H 48000GB*H
简介: E-MapReduce从EMR-2.7.x/EMR-3.5.x版本开始支持创建安全类型的集群,即集群中的开源组件以Kerberos的安全模式启动,在这种安全环境下只有经过认证的客户端(Client)才能访问集群的服务(Service,如HDFS)。

E-MapReduce从EMR-2.7.x/EMR-3.5.x版本开始支持创建安全类型的集群,即集群中的开源组件以Kerberos的安全模式启动,在这种安全环境下只有经过认证的客户端(Client)才能访问集群的服务(Service,如HDFS)。

企业级安全

一个大数据集群的企业级安全,从外到内可以分为几层:

  • 边界安全

如网络的隔离,使用vpc/安全组/iptables等。

  • 认证(Authentication)

只有可信的得到合法身份认证的用户才能够访问集群。
开源组件通用的认证方案是集成Kerberos(如HDFS/YARN/HBase等),也有用户名/密码(如hue等)。

  • 授权(Authorization)

将开源组件里面的具体资源的操作权限授予用户,未被授权的用户无法访问资源。

  • 加密(Encryption)

通道/数据的加密,如HDFS存储的数据加密,数据被窃取后也无法查看等。

  • 审计(Audict)

对服务的访问操作进行监控和记录,便于排查跟踪问题。

enterprise_sercurity

如上图所示,访问服务的用户会经过一层层的安全措施过滤,保障大数据集群的安全稳定运行。

E-MapReduce安全实践

E-MapReduce在边界安全/认证/授权/审计/加密五个维度都提供了相应的能力。

  • 边界安全

创建集群时候可选择vpc网络
集群有安全组控制开放端口
用户可根据需求在集群节点上面设置iptables

  • 认证

创建的Kerberos安全集群的开源组件自动以Kerberos方式启动,开启身份认证,不需要用户进行复杂的Kerberos配置,而且支持多种身份认证方式(如与RAM/LDAP等的结合)

具体详见E-MapReduce Kerberos文档

  • 授权

E-MapReduce集群的开源组件可按照组件的官方文档进行相关的权限配置。

可以在E-MapReduce控制台的集群配置管理页面方便的进行配置并重启各项服务,无需登录集群操作。

权限配置详见E-MapReduce 授权文档
HDFS授权
YARN授权
Hive授权
HBase授权

  • 审计

E-MapReduce集群默认开启了HDFS/HBase的audict log, 其它相关组件后续会陆续开启。

  • 加密

用户可选择启动使用HDFS的数据加密KMS服务。

有兴趣或者有需求的用户可以关注一下E-MapReduce的安全相关的功能,有问题及时联系和反馈。

c7c8f09ebf3cc7795e0dd0da330cec88

目录
相关文章
|
26天前
|
SQL 分布式计算 运维
如何对付一个耗时6h+的ODPS任务:慢节点优化实践
本文描述了大数据处理任务(特别是涉及大量JOIN操作的任务)中遇到的性能瓶颈问题及其优化过程。
|
2月前
|
分布式计算 搜索推荐 物联网
大数据及AI典型场景实践问题之通过KafKa+OTS+MaxCompute完成物联网系统技术重构如何解决
大数据及AI典型场景实践问题之通过KafKa+OTS+MaxCompute完成物联网系统技术重构如何解决
|
2月前
|
人工智能 分布式计算 架构师
大数据及AI典型场景实践问题之基于MaxCompute构建Noxmobi全球化精准营销系统如何解决
大数据及AI典型场景实践问题之基于MaxCompute构建Noxmobi全球化精准营销系统如何解决
|
2月前
|
存储 监控 安全
大数据架构设计原则:构建高效、可扩展与安全的数据生态系统
【8月更文挑战第23天】大数据架构设计是一个复杂而系统的工程,需要综合考虑业务需求、技术选型、安全合规等多个方面。遵循上述设计原则,可以帮助企业构建出既高效又安全的大数据生态系统,为业务创新和决策支持提供强有力的支撑。随着技术的不断发展和业务需求的不断变化,持续优化和调整大数据架构也将成为一项持续的工作。
|
2月前
|
安全 关系型数据库 MySQL
揭秘MySQL海量数据迁移终极秘籍:从逻辑备份到物理复制,解锁大数据迁移的高效与安全之道
【8月更文挑战第2天】MySQL数据量很大的数据库迁移最优方案
290 17
|
2月前
|
分布式计算 大数据 分布式数据库
"揭秘HBase MapReduce高效数据处理秘诀:四步实战攻略,让你轻松玩转大数据分析!"
【8月更文挑战第17天】大数据时代,HBase以高性能、可扩展性成为关键的数据存储解决方案。结合MapReduce分布式计算框架,能高效处理HBase中的大规模数据。本文通过实例展示如何配置HBase集群、编写Map和Reduce函数,以及运行MapReduce作业来计算HBase某列的平均值。此过程不仅限于简单的统计分析,还可扩展至更复杂的数据处理任务,为企业提供强有力的大数据技术支持。
43 1
|
2月前
|
SQL 监控 大数据
"解锁实时大数据处理新境界:Google Dataflow——构建高效、可扩展的实时数据管道实践"
【8月更文挑战第10天】随着大数据时代的发展,企业急需高效处理数据以实现即时响应。Google Dataflow作为Google Cloud Platform的强大服务,提供了一个完全托管的流处理与批处理方案。它采用Apache Beam编程模型,支持自动扩展、高可用性,并能与GCP服务无缝集成。例如,电商平台可通过Dataflow实时分析用户行为日志:首先利用Pub/Sub收集数据;接着构建管道处理并分析这些日志;最后将结果输出至BigQuery。Dataflow因此成为构建实时数据处理系统的理想选择,助力企业快速响应业务需求。
117 6
|
2月前
|
分布式计算 大数据 Hadoop
MapReduce:大数据处理的基石
【8月更文挑战第31天】
46 0
|
2月前
|
机器学习/深度学习 分布式计算 算法
MaxCompute 的 MapReduce 与机器学习
【8月更文第31天】随着大数据时代的到来,如何有效地处理和分析海量数据成为了一个重要的课题。MapReduce 是一种编程模型,用于处理和生成大型数据集,其核心思想是将计算任务分解为可以并行处理的小任务。阿里云的 MaxCompute 是一个面向离线数据仓库的计算服务,提供了 MapReduce 接口来处理大规模数据集。本文将探讨如何利用 MaxCompute 的 MapReduce 功能来执行复杂的计算任务,特别是应用于机器学习场景。
40 0
|
2月前
|
存储 运维 Cloud Native
"Flink+Paimon:阿里云大数据云原生运维数仓的创新实践,引领实时数据处理新纪元"
【8月更文挑战第2天】Flink+Paimon在阿里云大数据云原生运维数仓的实践
237 3
下一篇
无影云桌面