如何可视化编写和编排你的 K8s 任务

本文涉及的产品
可观测监控 Prometheus 版,每月50GB免费额度
任务调度 XXL-JOB 版免费试用,400 元额度,开发版规格
注册配置 MSE Nacos/ZooKeeper,182元/月
简介: 通过任务调度 SchedulerX 来调度你的 K8s 任务,能够降低学习成本,加快开发效率,让你的任务失败可报警,出问题可排查,打造云原生可观测体系下的可视化 K8s 任务。

作者:学仁


简介


K8s Job是 Kubernetes 中的一种资源,用来处理短周期的 Pod,相当于一次性任务,跑完就会把 Pod 销毁,不会一直占用资源,可以节省成本,提高资源利用率。


阿里任务调度 SchedulerX和云原生结合,重磅推出可视化 K8s 任务,针对脚本使用者,屏蔽了容器服务的细节,不用构建镜像就可以让不熟悉容器的同学(比如运维和运营同学)玩转K8s Job,受益容器服务带来的降本增效福利。针对容器使用者,SchedulerX 不但完全兼容原生的 K8s Job,还能支持历史执行记录、日志服务、重跑任务、报警监控、可视化任务编排等能力,为企业级应用保驾护航。架构图如下:


1.png


特性一:快速开发 K8s 可视化脚本任务


Kubernetes 的 Job,常见用来做离线数据处理和运维工作(比如每天凌晨 2 点把 mysql 数据同步到大数据平台,每隔 1 小时更新一次 redis 缓存等),一般以脚本实现居多。这里以一个简单的场景举例子,来对比两种方案的差异。


Kubernetes 原生解决方案


K8s 调度的最小单位是 Pod,想跑脚本任务,需要提前把脚本打包到镜像里,然后在 YAML 文件中配置脚本命令,下面以通过 python 脚本查询数据库为例子:


  • 编写 python 脚本 demo.py


#!/usr/bin/python
# -*- coding: UTF-8 -*-
import MySQLdb
# 打开数据库连接
db = MySQLdb.connect("localhost", "testuser", "test123", "TESTDB", charset='utf8' )
# 使用cursor()方法获取操作游标 
cursor = db.cursor()
# SQL 查询语句
sql = "SELECT * FROM EMPLOYEE \
WHERE INCOME > %s" % (1000)
try:
    # 执行SQL语句
    cursor.execute(sql)
    # 获取所有记录列表
    results = cursor.fetchall()
    for row in results:
        fname = row[0]
        lname = row[1]
        age = row[2]
        sex = row[3]
        income = row[4]
        # 打印结果
        print "fname=%s,lname=%s,age=%s,sex=%s,income=%s" % \
        (fname, lname, age, sex, income )
        except:
            print "Error: unable to fetch data"
            # 关闭数据库连接
db.close()

  • 编写 Dockerfile


FROM python:3
WORKDIR /usr/src/app
COPY requirements.txt ./
RUN pip install --no-cache-dir -r requirements.txt
COPY demo.py /root/demo.py
CMD [ "python", "/root/demo.py" ]

  • 制作 docker 镜像,推到镜像仓库中


docker build -t registry.cn-beijing.aliyuncs.com/demo/python:1.0.0 .
docker push registry.cn-beijing.aliyuncs.com/demo/python:1.0.0

  • 编写 K8s Job 的 YAML 文件,image 选择第 3 步制作的镜像,command 的命令为执行脚本


apiVersion: batch/v1
kind: Job
metadata:
  name: demo-python
spec:
  template:
    spec:
      containers:
      - name: demo-python
        image: registry.cn-beijing.aliyuncs.com/demo/python:1.0.0
        command: ["python",  "/root/demo.py"]
      restartPolicy: Never
  backoffLimit: 4


我们看到要在容器服务中跑脚本,需要这么多步骤,如果要修改脚本,还需要重新构建镜像和重新发布 K8s Job,非常麻烦。


阿里云解决方案


阿里任务调度 SchedulerX 结合云原生技术,提出了一套可视化的脚本任务解决方案,通过任务调度系统来管理脚本,直接在线编写脚本,不需要构建镜像,就可以将脚本以 Pod 的方式在用户的 K8s 集群当中运行起来,使用非常方便,如下图:


2.png


image.gif1. 在 SchedulerX 任务管理新建一个 K8s 任务,资源类型选择 Python-Script(当前支持shell/python/php/nodejs 四种脚本类型)


3.png


image.gif2. 点击运行一次,在 Kubernetes 集群中可以看到 pod 启动,pod 名称为 schedulerx-python-{JobId}


4.png


3. 在 SchedulerX 控制台也可以看到历史执行记录


5.png


4. 在 SchedulerX 控制台可以看到 Pod 运行的日志


6.png


下面通过一个表格更方便的看到两个方案的差异:


7.png


特性二:完全兼容原生 K8s Job


SchedulerX 不但能够快速开发 K8s 脚本任务,屏蔽容器服务的细节,给不熟悉容器服务的同学带来福音,同时还能托管原生 K8s Job。


原生自带的Job方案


  • Job


以官方提供的 Job 为例:


1. 编写 YAML 文件 pi.yaml,故意写一个错误,bpi(-1)是非法的


apiVersion: batch/v1
kind: Job
metadata:
  name: pi
spec:
  template:
    spec:
      containers:
      - name: pi
        image: perl:5.34
        command: ["perl",  "-Mbignum=bpi", "-wle", "print bpi(-1)"]
      restartPolicy: Never
  backoffLimit: 4


2. 在 K8s 集群中运行该 Job,并查看 Pod 的状态和日志:image.gif


8.png


K8s 原生的 Job 不支持重跑,修改完 Job 后想要重跑,需要先删除,再重新 apply,非常麻烦。


9.png


  • CronJob
     

以官方提供的 CronJob 为例:


1. 编写 hello.yaml


apiVersion: batch/v1
kind: CronJob
metadata:
  name: hello
spec:
  schedule: "* * * * *"
  jobTemplate:
    spec:
      template:
        spec:
          containers:
          - name: hello
            image: perl:5.34
            command: ["perl",  "-Mbignum=bpi", "-wle", "print bpi(100)"]
          restartPolicy: OnFailure


2. 在 K8s 集群中运行该 CronJob,查看 pod 历史记录和日志


10.png


发现原生的 CronJob 只能查看最近3条执行记录,想要查看更久之前的记录无法看到,这在业务出现问题想排查的时候就变得尤为困难。


阿里云解决方案


阿里任务调度 SchedulerX 可以托管原生 K8s 任务,方便移植,使用 SchedulerX 托管,可以享有任务调度的特性,比如任务重跑、历史记录、日志服务、报警监控等。


1. 新建 K8s 任务,任务类型选择 K8s,资源类型选择 Job-YAML,打印 bpi(-1)image.gif


11.png


2. 通过工具来生成 cron 表达式,比如每小时第 8 分钟跑image.gif


12.png


3. 调度时间还没到,也可以手动点击“运行一次”来进行测试image.gif


13.png


4. 在 K8s 集群中可以看到 Job 和 Pod 启动成功image.gif


14.png


5. 在 SchedulerX 控制台也可以看到历史执行记录


15.png


6. 在 SchedulerX 控制台可以看到任务运行日志


16.png


7. 在线修改任务的 YAML,打印 bpi(100)


17.png


8. 不需要删除 Job,通过控制台来重跑任务image.gif


18.png


9. 任务重跑成功,且能看到新的日志


19.png

20.png


下面通过一个表格来对比两个方案的差异

image.gif

21.png


特性三:增强原生 Job,支持可视化任务编排


在数据处理场景下,任务之间往往有依赖关系,比如 A 任务依赖 B 任务的完成才能开始执行。


Kubernetes 原生解决方案

当前 K8s 中主流的解决方案是使用 argo 进行工作流编排,比如定义一个 DAG 如下:


# The following workflow executes a diamond workflow
# 
#   A
#  / \
# B   C
#  \ /
#   D
apiVersion: argoproj.io/v1alpha1
kind: Workflow
metadata:
  generateName: dag-diamond
spec:
  entrypoint: diamond
  templates:
  - name: diamond
    dag:
      tasks:
      - name: A
        template: echo
        arguments:
          parameters: [{name: message, value: A}]
      - name: B
        depends: "A"
        template: echo
        arguments:
          parameters: [{name: message, value: B}]
      - name: C
        depends: "A"
        template: echo
        arguments:
          parameters: [{name: message, value: C}]
      - name: D
        depends: "B && C"
        template: echo
        arguments:
          parameters: [{name: message, value: D}]
  - name: echo
    inputs:
      parameters:
      - name: message
    container:
      image: alpine:3.7
      command: [echo, "{{inputs.parameters.message}}"]


我们看到构建这么简单的一个 DAG,就需要写这么多 YAML,如果依赖关系复杂,则 YAML 就变得非常难维护。


阿里云解决方案


阿里任务调度 SchedulerX 支持通过可视化的工作流进行任务编排


1. 创建一个工作流,可以导入任务,也可以在当前画布新建任务,通过拖拽构建一个工作流image.gif


22.png


2. 点击运行一次,可以实时看到工作流的运行情况,方便排查任务卡在哪个环节:image.gif


23.png


3. 如果有任务失败了,通过控制台查看日志


24.png


4. 把任务修改正确,在工作流实例图上,原地重跑失败的节点


25.png


5. 失败的任务会重新按照最新的内容执行


26.png


6. 当上游都执行成功,下游就可以继续执行了


27.png


总结


通过任务调度 SchedulerX 来调度你的 K8s 任务,能够降低学习成本,加快开发效率,让你的任务失败可报警,出问题可排查,打造云原生可观测体系下的可视化 K8s 任务。

相关实践学习
深入解析Docker容器化技术
Docker是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的Linux机器上,也可以实现虚拟化,容器是完全使用沙箱机制,相互之间不会有任何接口。Docker是世界领先的软件容器平台。开发人员利用Docker可以消除协作编码时“在我的机器上可正常工作”的问题。运维人员利用Docker可以在隔离容器中并行运行和管理应用,获得更好的计算密度。企业利用Docker可以构建敏捷的软件交付管道,以更快的速度、更高的安全性和可靠的信誉为Linux和Windows Server应用发布新功能。 在本套课程中,我们将全面的讲解Docker技术栈,从环境安装到容器、镜像操作以及生产环境如何部署开发的微服务应用。本课程由黑马程序员提供。     相关的阿里云产品:容器服务 ACK 容器服务 Kubernetes 版(简称 ACK)提供高性能可伸缩的容器应用管理能力,支持企业级容器化应用的全生命周期管理。整合阿里云虚拟化、存储、网络和安全能力,打造云端最佳容器化应用运行环境。 了解产品详情: https://www.aliyun.com/product/kubernetes
相关文章
|
12月前
|
关系型数据库 MySQL Docker
《docker高级篇(大厂进阶):5.Docker-compose容器编排》包括是什么能干嘛去哪下、Compose核心概念、Compose使用三个步骤、Compose常用命令、Compose编排微服务
《docker高级篇(大厂进阶):5.Docker-compose容器编排》包括是什么能干嘛去哪下、Compose核心概念、Compose使用三个步骤、Compose常用命令、Compose编排微服务
640 24
|
12月前
|
关系型数据库 MySQL Docker
《docker高级篇(大厂进阶):5.Docker-compose容器编排》包括是什么能干嘛去哪下、Compose核心概念、Compose使用三个步骤、Compose常用命令、Compose编排微服务
《docker高级篇(大厂进阶):5.Docker-compose容器编排》包括是什么能干嘛去哪下、Compose核心概念、Compose使用三个步骤、Compose常用命令、Compose编排微服务
621 6
|
Kubernetes Linux 调度
【赵渝强老师】K8s的周期性任务控制器CronJob
本文介绍了K8s中的CronJob控制器,它类似于Linux的crontab命令,用于管理和调度定时作业。CronJob可以设置在未来某一时间运行作业一次或在指定时间点重复运行作业。文章通过一个示例展示了如何创建和使用CronJob控制器,包括创建配置文件、应用配置、查看Pod信息和日志等步骤。同时,还解释了CronJob的时间表示方式及其限制。
246 0
|
Kubernetes 负载均衡 调度
Kubernetes集群管理与编排实践
Kubernetes集群管理与编排实践
147 0
|
人工智能 Kubernetes Cloud Native
Kube Queue:Kubernetes 任务排队的利器
Kube Queue:Kubernetes 任务排队的利器
222168 104
|
Kubernetes Unix API
在K8S中,如果解决周期性任务?
在K8S中,如果解决周期性任务?
|
Kubernetes API Perl
在K8S中,如何让Pod运行一次?如何解决一次性任务?
在K8S中,如何让Pod运行一次?如何解决一次性任务?
|
Kubernetes Java 数据库连接
实时计算 Flink版产品使用问题之部署到 Kubernetes 集群时,任务过一会儿自动被取消,该如何排查
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
SQL 关系型数据库 MySQL
实时计算 Flink版产品使用问题之运行run-application --target kubernetes-application执行,通过进程的返回码来决定作业是否成功,任务返回码都是0,该怎么办
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
缓存 Kubernetes Java
实时计算 Flink版产品使用合集之nk任务在k8s上运行,数据量大时经常失败,并且某个TaskManager被cgroup杀掉,该如何处理
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。

相关产品

  • 容器服务Kubernetes版