在SPARK SUMMIT 2017上,Kerberos介绍和使用案例,Stratio Solution需求分析和demo演示分享了题为《Kerberizing Spark》,就等方面的内容做了深入的分析。
https://yq.aliyun.com/download/2230?spm=a2c4e.11154804.0.0.27e16a79L1IX7O
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
在SPARK SUMMIT 2017上关于《Kerberizing Spark》的分享,主要聚焦于如何在Apache Spark环境中集成Kerberos以增强安全性。Kerberos是一种广泛采用的网络认证协议,它为分布式系统提供了强大的身份验证机制,确保只有经过授权的用户或服务才能访问敏感数据和资源。
Kerberos通过一个集中式的密钥分发中心(KDC)来管理身份验证过程,这个过程包括: 1. 身份验证:用户或服务向KDC请求“票据许可票据”(TGT),这需要用户提供正确的凭证(通常是密码)。 2. 服务授权:获得TGT后,用户可以请求访问特定服务的“服务票据”,该票据用于向目标服务证明用户的身份。 3. 服务访问:服务票据被提交给目标服务,服务验证票据的有效性后允许访问。
在Spark中应用Kerberos,主要是为了保护Hadoop生态系统中的数据安全,特别是在企业级部署中,常见场景包括: - 数据湖安全:确保只有经过认证的用户能够读写HDFS上的数据。 - YARN资源管理:防止未授权的Spark作业提交到YARN集群上运行。 - Spark SQL与Hive集成:在使用Spark SQL查询Hive表时,确保访问控制得到执行。
Stratio是一家提供大数据解决方案的公司,它们可能在分享中展示了如何在其解决方案中实现Kerberos集成,以满足客户对数据安全性的严格要求。需求分析可能覆盖了以下方面: - 多租户环境的安全隔离:确保不同组织或部门的数据访问权限互不干扰。 - 细粒度权限控制:根据角色或用户级别设定访问权限,比如只读或读写权限。 - 审计和合规性:记录所有访问尝试,以便跟踪和满足行业安全标准。
Demo演示则可能具体展示了配置Kerberos后的Spark作业提交流程、如何处理认证失败的情况,以及如何监控和报告安全相关的事件。
阿里云也提供了与之相关的产品和服务,如: - MaxCompute:支持Kerberos认证,确保大数据计算服务的安全性。 - E-MapReduce:基于Hadoop和Spark的企业级大数据处理服务,集成了Kerberos安全特性,便于用户在云上构建安全可靠的大数据应用。 - DataWorks:作为一站式大数据开发与管理平台,支持与Kerberos集成的Hadoop生态组件,帮助用户在开发、调度和运维过程中实施严格的访问控制。
对于希望深入了解或实践Kerberos与Spark集成的用户,可以通过阿里云提供的文档、教程和社区资源进行学习和交流。