如何杜绝 spark history server ui 的未授权访问? 2

本文涉及的产品
访问控制,不限时长
简介: 如何杜绝 spark history server ui 的未授权访问?

4 未开启 kerberos 的大数据集群环境中,如何杜绝对 shs web ui 的未授权访问?

  • 在没有开启 kerberos 的大数据集群环境中,对 shs ui 进行访问控制,仍需要使用上述 servlet 认证过滤器和访问控制列表机制;
  • 由于 spark 本身并没有提供任何内置的认证 过滤器, 大家需要根据自己的认证机制自己实现一个认证过滤器,并配置参数 spark.ui.filters 使用该过滤器;
  • 事实上,Hadoop 提供了一个 servlet 认证过滤器,即 org.apache.hadoop.security.authentication.server.AuthenticationFilter,和几个配套的认证机制的实现类,b包括 PseudoAuthenticationHandler/KerberosAuthenticationHandler/LdapAuthenticationHandler/MultiSchemeAuthenticationHandler/JWTRedirectAuthenticationHandler;
  • 在没有开启 kerberos 的大数据集群环境中,大家可以重点看下 hadoop 提供的 LdapAuthenticationHandler/JWTRedirectAuthenticationHandler 认证过滤器,能否满足自己对 shs ui 认证的需要;

640.png


  • 如果上述 hadoop 提供的认证过滤去不满足自己对 shs ui 认证的需要,大家需要根据自己的认证机制自己实现一个认证过滤器;
  • 笔者在此提供一个简单的认证过滤器,该过滤器;
package com.hundsun.broker;
import org.apache.commons.codec.binary.Base64;
import org.apache.commons.lang3.StringUtils;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
import javax.servlet.*;
import javax.servlet.http.HttpServletRequest;
import javax.servlet.http.HttpServletResponse;
import java.io.IOException;
import java.io.UnsupportedEncodingException;
import java.util.StringTokenizer;
/*
该类是一个简单的 servlet 安全过滤器,可以配置 spark history server web ui 使用该安全过滤器,以实现基本的访问控制
需要配合以下参数一起使用: 
  spark.ui.filters,spark.history.ui.acls.enable,
  spark.history.ui.admin.acls,spark.history.ui.admin.acls.groups
 */
public class BasicAuthenticationFilter implements Filter {
  /** Logger */
  private static final Logger LOG = LoggerFactory.getLogger(BasicAuthenticationFilter.class);
  private String username = "";
  private String password = "";
  private String realm = "Protected";
  /*
  该方法使用指定的参数初始化该安全过滤器
  具体参数包括:
    用户名 username
    密码 password
    安全域 realm
   */
  @Override
  public void init(FilterConfig filterConfig) throws ServletException {
    username = filterConfig.getInitParameter("username");
    password = filterConfig.getInitParameter("password");
    realm  = filterConfig.getInitParameter("realm");
    if ( StringUtils.isBlank( username ) ) {
      throw new ServletException( "No user provided in filter configuration" );
    }
    if ( StringUtils.isBlank( password ) ) {
      throw new ServletException( "No password provided in filter configuration" );
    }
    if ( StringUtils.isBlank( realm ) ) {
      throw new ServletException( "No realm provided in filter configuration" );
    }
  }
  /*
  该方法对 http 请求进行安全过滤,具体过滤逻辑是:
  检查 http header 中 Authorization 是否为 Basic,并提取 header 中的用户名和密码
  将 header 中提取的用户名和密码,跟初始化该过滤器时使用的用户名和密码进行对比,若一致则认证通过
  其他情况则认证失败
   */
  @Override
  public void doFilter(ServletRequest servletRequest, ServletResponse servletResponse, FilterChain filterChain)
      throws IOException, ServletException {
    HttpServletRequest request = (HttpServletRequest) servletRequest;
    HttpServletResponse response = (HttpServletResponse) servletResponse;
    String authHeader = request.getHeader("Authorization");
    if (authHeader != null) {
      StringTokenizer st = new StringTokenizer(authHeader);
      if (st.hasMoreTokens()) {
        String basic = st.nextToken();
        if (basic.equalsIgnoreCase("Basic")) {
          try {
            String credentials = new String(Base64.decodeBase64(st.nextToken()), "UTF-8");
            LOG.debug("Credentials: " + credentials);
            int p = credentials.indexOf(":");
            if (p != -1) {
              String _username = credentials.substring(0, p).trim();
              String _password = credentials.substring(p + 1).trim();
              if (!username.equals(_username) || !password.equals(_password)) {
                unauthorized(response, "Bad credentials");
              }
              filterChain.doFilter(servletRequest, servletResponse);
            } else {
              unauthorized(response, "Invalid authentication token");
            }
          } catch (UnsupportedEncodingException e) {
            throw new Error("Couldn't retrieve authentication", e);
          }
        }
      }
    } else {
      unauthorized(response);
    }
  }
  @Override
  public void destroy() {
  }
  private void unauthorized(HttpServletResponse response, String message) throws IOException {
    response.setHeader("WWW-Authenticate", "Basic realm=\"" + realm + "\"");
    response.sendError(401, message);
  }
  private void unauthorized(HttpServletResponse response) throws IOException {
    unauthorized(response, "Unauthorized");
  }
}
  • 使用该认证过滤器,配合以下参数,即可实现对 shs ui 的访问控制:
//通过以下配置项开启了 shs ui 的认证 - 使用自定义认证过滤器
spark.ui.filters=org.apache.spark.deploy.yarn.YarnProxyRedirectFilter,com.hundsun.broker.BasicAuthenticationFilter
spark.com.hundsun.broker.BasicAuthenticationFilter.param.username=spark
spark.com.hundsun.broker.BasicAuthenticationFilter.param.password=spark
spark.com.hundsun.broker.BasicAuthenticationFilter.param.realm=spark
//通过以下配置项,开启 shs ui 的访问控制列表 acl
spark.history.ui.acls.enable=true
spark.history.ui.admin.acls=spark
spark.history.ui.admin.acls.groups=spark

640.png

  • 注意在 CDH 平台中,可能是由于 CM 自身启动 shs 的机制和背后配置机制等原因,在 History Server 高级配置代码段中的配置项 “spark.ui.filters=org.apache.spark.deploy.yarn.YarnProxyRedirectFilter”,在启动 shs 时并没有生效,所以需要手动修改配置文件 spark-defaults.conf,并手动通过命令行启动 shs:

640.png640.png

  • 此时用户访问 shs ui 时需要提供认证信息,只有提供了正确的用户名和密码才能访问 shs ui(用户名和密码通过后台参数 spark.com.hundsun.broker.BasicAuthenticationFilter.param.username/spark.com.hundsun.broker.BasicAuthenticationFilter.param.password=spark指定,安全过滤器初始化时会读取这些参数);
  • 此时只有使用访问控制列表中指定的用户和用户组,才能查看 shs ui 中具体应用信息的详细信息;

640.png640.png

Spark 源码中相关类:

org.apache.spark.ui.HttpSecurityFilter#doFilter
org.apache.spark.internal.config.UI#UI_FILTERS
org.apache.spark.scheduler.cluster.YarnSchedulerBackend#addWebUIFilter
相关实践学习
消息队列+Serverless+Tablestore:实现高弹性的电商订单系统
基于消息队列以及函数计算,快速部署一个高弹性的商品订单系统,能够应对抢购场景下的高并发情况。
云安全基础课 - 访问控制概述
课程大纲 课程目标和内容介绍视频时长 访问控制概述视频时长 身份标识和认证技术视频时长 授权机制视频时长 访问控制的常见攻击视频时长
相关文章
|
SQL 分布式计算 数据安全/隐私保护
如何杜绝 spark history server ui 的未授权访问? 1
如何杜绝 spark history server ui 的未授权访问?
|
4月前
|
存储 分布式计算 供应链
Spark在供应链核算中应用问题之通过Spark UI进行任务优化如何解决
Spark在供应链核算中应用问题之通过Spark UI进行任务优化如何解决
|
5月前
|
前端开发 JavaScript
零基础学 Vue + Element UI 第01步 —— 搭建开发环境、创建项目、修改默认模板、启动项目、访问项目
零基础学 Vue + Element UI 第01步 —— 搭建开发环境、创建项目、修改默认模板、启动项目、访问项目
75 1
|
6月前
|
分布式计算 DataWorks MaxCompute
MaxCompute操作报错合集之在Spark访问OSS时出现证书错误的问题,该如何解决
MaxCompute是阿里云提供的大规模离线数据处理服务,用于大数据分析、挖掘和报表生成等场景。在使用MaxCompute进行数据处理时,可能会遇到各种操作报错。以下是一些常见的MaxCompute操作报错及其可能的原因与解决措施的合集。
|
JSON Java 数据格式
【异常处理】关于访问swagger-ui报错java.lang.NumberFormatException: For input string: ““的解决方案总结
【异常处理】关于访问swagger-ui报错java.lang.NumberFormatException: For input string: ““的解决方案总结
363 0
|
7月前
|
分布式计算 DataWorks API
DataWorks产品使用合集之在DataWorks中,通过spark访问外网的步骤如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
179 0
|
7月前
|
存储 分布式计算 API
adb spark的lakehouse api访问内表数据,还支持算子下推吗
【2月更文挑战第21天】adb spark的lakehouse api访问内表数据,还支持算子下推吗
150 2
|
7月前
|
前端开发 IDE 开发工具
WxPython 4.0.4多线程访问UI
WxPython 4.0.4多线程访问UI
76 0
|
7月前
|
分布式计算 分布式数据库 API
Spark与HBase的集成与数据访问
Spark与HBase的集成与数据访问
|
1月前
|
分布式计算 大数据 Apache
ClickHouse与大数据生态集成:Spark & Flink 实战
【10月更文挑战第26天】在当今这个数据爆炸的时代,能够高效地处理和分析海量数据成为了企业和组织提升竞争力的关键。作为一款高性能的列式数据库系统,ClickHouse 在大数据分析领域展现出了卓越的能力。然而,为了充分利用ClickHouse的优势,将其与现有的大数据处理框架(如Apache Spark和Apache Flink)进行集成变得尤为重要。本文将从我个人的角度出发,探讨如何通过这些技术的结合,实现对大规模数据的实时处理和分析。
134 2
ClickHouse与大数据生态集成:Spark & Flink 实战