SparkSQL ThriftServer 安全相关功能的现状分析-阿里云开发者社区

SparkSQL ThriftServer 安全相关功能的现状分析

2019-01-01 3793

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： SparkSQL Thrift Server 是 Spark SQL基于 Apache Hive的 HiveServer2开发的，通过SparkSQL Thrift Server 可以使 Spark SQL支持 JDBC/ODBC 的连接方式，用户可以通过 JDBC and ODBC 协议，在Spark上执行 SQL。

SparkSQL Thrift Server

SparkSQL Thrift Server 是 Spark SQL基于 Apache Hive的 HiveServer2开发的，通过SparkSQL Thrift Server 可以使 Spark SQL支持 JDBC/ODBC 的连接方式，用户可以通过 JDBC and ODBC 协议，在Spark上执行 SQL.

ThriftServer的安全

HiveServer2 和 SparkSQL 的Thrift Server的安全主要包含以下两方面内容：

认证（Authentication）：

认证就是验证用户的身份，就是我们通常说的登录

授权（Authorization）：

授权就是验证用户是否有权限进行特定的操作，有时也叫鉴权。

ThriftServer 认证

Apache Hive HiveServer2 支持的认证

Kerberos authentication
Kerberos authentication 是 Hadoop 强安全认证的一个重要方式，在Thrift client 和 HiveServer2 之间，HiveServer2 和 Kerberos 的 HDFS 之间都是支持 Kerberos 的；
LDAP authentication
在 Thrift client 和 HiveServer2 之间认证时，LDAP authentication 也是支持的；
Pluggable Authentication
在 Thrift client 和 HiveServer2 之间的认证还可以通过实现 Pluggable authentication进行自定义的 Authentication，根据 HiveServer2 实现自己的 Provider 即可

Apache SparkSQL ThriftServer 的认证

理论上, Spark SQL Thrift Server 支持 Hive Server2 的所有的认证。（笔者测试了 Spark 2.1.1 的 Kerberos 支持是可以的）

ThriftServer 授权

Apache Hive HiveServer2 的认证

默认的 Hive Authorization

Hive 早期的授权方式，不安全。

Storage-based Authorization

Storage-based authorization 是基于 HDFS 文件的权限进行认证的, 一般授权可以控制的级别是 databases, tables 和 partitions，但是 Hive的 Grant/Revoke 是无效的

SQL standard-based Authorization

SQL standard-based Authorization 是在 Hive Metastore 中存储了权限的元数据信息，ThriftServer 可以通过读取对应的信息进行授权管理。这种场景下. Grant/Revoke 的 SQL 命令管理方式也是支持的。

Apache Sentry Authorization

Apache Sentry 也是一款不错的授权管理组件，由 Cloudera 主要维护，用户可以通过 HUE 和 Hive命令执行 grant/revoke SQL 语句。
老版本的 Sentry 基于 Hive 上的 Semantic Analyzer Hook, V2 基于 Hive Authorization Factory，也就是 SQL standard-based Authorization。

Spark Thrift Server 的授权

Storage-based Authorization

Storage-based Authorization 是依赖于 HDFS 上的文件权限的，Spark Thrift Server 可以使用, 但是 Spark Thrift Server 不支持 impersonation（类似hive.server2.enable.doAs=true），所以，用户通过Kerberos认证后，ThriftServer 只能以ThriftServer的身份去执行具体的查询
https://issues.apache.org/jira/browse/SPARK-5159

这个问题修复后，最好可以配合 Sentry 这种 Sentry-HDFS permission sync 一起用，在 HDFS 文件的权限和 Warehouse 权限。

SQL standard-based Authorization

对于 SQL standard-based Authorization (Apache Sentry Authorization), Spark Thrift Server 不支持 SQL standard-based 认证。但是，社区中已经有相应的patch。

https://issues.apache.org/jira/browse/SPARK-8321
https://github.com/apache/spark/pull/11045

总结

STS(Spark Thrift Server) 支持 Kerberos Authentication
STS 不支持 SQL standard-based Authorization;
https://github.com/apache/spark/pull/11045
STS 支持 Storage-based Authorization, 但是 STS 不支持impersonation (doAs), STS使用这种方式，其实并不能达到完整的授权管理;
当 impersonation 支持后, 如果需要高效的管理，最好进入HDFS 文件和数据库权限同步的机制.

原创文章，如需转载，请先联系作者 dapeng.sdp#alibaba-inc.com
欢迎加入Apache Spark中国技术社区参与更多直播、讨论

SparkSQL ThriftServer 安全相关功能的现状分析

SparkSQL Thrift Server

ThriftServer的安全

ThriftServer 认证

Apache Hive HiveServer2 支持的认证

Apache SparkSQL ThriftServer 的认证

ThriftServer 授权

Apache Hive HiveServer2 的认证

默认的 Hive Authorization

Storage-based Authorization

SQL standard-based Authorization

Apache Sentry Authorization

Spark Thrift Server 的授权

Storage-based Authorization

SQL standard-based Authorization

开源大数据平台 E-MapReduce

热门文章

最新文章

相关电子书