离线数仓--大数据技术之DolphinScheduler

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
大数据开发治理平台 DataWorks,不限时长
简介: 离线数仓--大数据技术之DolphinScheduler

1、DolphinScheduler简介


1.1 DolphinScheduler概述


Apache DolphinScheduler是一个分布式、易扩展的可视化DAG工作流任务调度平台。致力于解决数据处理流程中错综复杂的依赖关系,使调度系统在数据处理流程中开箱即用。


1.2 DolphinScheduler核心架构


DolphinScheduler的主要角色如下:

MasterServer采用分布式无中心设计理念,MasterServer主要负责DAG任务划分、任务提交、任务监控,并同时监听其它MasterServer和WorkerServer的健康状态。

WorkerServer也采用分布式无中心设计理念。WorkerServer主要负责任务的执行好提供日志服务。

Zookeeper服务,系统中的MasterServer和WorkServer节点都是通过Zookeeper来进行集群管理和容错。

Alert服务,提供告警相关服务。

API接口层,主要负责处理前端UI层的请求。

UI,系统的前端页面,提供系统的各种可视化操作界面。

image.png


2、DolphinScheduler部署说明


2.1 软硬件环境要求


2.1.1 操作系统版本要求


操作系统 版本
Red Hat Enterprise Linux 7.0及以上
CentOS 7.0及以上
Oracle Enterprise Linux 7.0 及以上
Ubuntu LTS 16.04及以上


2.1.2 服务器硬件要求


CPU 内存 硬盘类型 网络 实例数量
4核+ 8GB+ SAS 千兆网卡 1+


2.2 部署模式


DolphinScheduler支持多种部署模式,包括单机模式(Standalone)、伪集群模式(Pseudo-Cluster)、集群模式(Cluster)等 image.png


2.2.1 单机模式


单机模式(Standalone)下,所以服务均集中于一个StandaloneServer进程中,并且其中内置了注册中心Zookeeper和数据库H2。只需要配置JDK环境,就可以一键启动DolphinScheduler,快速体验其功能。


2.2.2 伪集群模式


伪集群模式(Pseudo-Cluster)是在单台集群部署DolphinScheduler各项服务,该模式下master、Worker、api Server、logger Server等服务都只在同一台机器上。Zookeeper和数据库需要单独安装并进行相应配置。


2.2.3 集群模式


集群模式(Cluster)与伪集群模式的区别就是在多台机器部署DolphinScheduler各项服务,并且可以配置多个master以及多个Worker。


3、DolphinScheduler集群模式部署


3.1 集群规划


集群模式下,可以配置多个Master及多个Worker。通常可配置2~3个Master,若干个Worker。由于集群资源有限,此处配置一个Master,三个Worker,集群规划如下。


node1

Master、Worker

node2

Worker

node3

Worker


3.2 前置准备工作


1、三台节点均需部署JDK(1.8+),并配置相关环境变量。

2、需部署数据库,支持MySQL(5.7+)或者PostgreSQL(8.2.15+)。如 MySQL 则需要 JDBC Driver 8.0.16。

3、需部署Zookeeper(3.4.6+)。

4、如果启用 HDFS 文件系统,则需要 Hadoop(2.6+)环境。

5、三台节点均需安装进程管理工具包psmisc。

##三台节点都有执行
sudo yum install -y psmis


3.3 解压DolphinScheduler安装包


1、获取安装包

链接:https://pan.baidu.com/s/1KFvnZlanfVg4XOgc1T08aA

提取码:zhm6

2、上传DolphinScheduler安装包到hadoop102节点的/opt/software目录

3、解压安装包到当前目录

##注:解压目录并非最终的安装目录
tar -zxvf apache-dolphinscheduler-1.3.9-bin -C .


3.4 配置一键部署脚本(注意我打了中文注释的配置)

#
# Licensed to the Apache Software Foundation (ASF) under one or more
# contributor license agreements.  See the NOTICE file distributed with
# this work for additional information regarding copyright ownership.
# The ASF licenses this file to You under the Apache License, Version 2.0
# (the "License"); you may not use this file except in compliance with
# the License.  You may obtain a copy of the License at
#
#     http://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.
#


# NOTICE :  If the following config has special characters in the variable `.*[]^${}\+?|()@#&`, Please escape, for example, `[` escape to `\[`
# postgresql or mysql
 #注意:数据库相关配置的 value 必须加引号,否则配置无法生效
 # 数据库类型
dbtype="mysql"

# db config
# db address and port
# 数据库 ip和端口号
dbhost="hadoop102:3306"

# db username
# 数据库用户名
username="dolphinscheduler"

# database name
# 数据库密码
dbname="dolphinscheduler"

# db passwprd
# NOTICE: if there are special characters, please use the \ to escape, for example, `[` escape to `\[`
password="dolphinscheduler"

# zk cluster
zkQuorum="hadoop102:2181,hadoop103:2181,hadoop104:2181"

# Note: the target installation path for dolphinscheduler, please not config as the same as the current path (pwd)
# DS 安装路径,如果不存在会创建
installPath="/opt/module/dolphinscheduler"

# deployment user
# Note: the deployment user needs to have sudo privileges and permissions to operate hdfs. If hdfs is enabled, the root directory needs to be created by itself
# 部署用户,任务执行服务是以 sudo -u {linux-user} 切换不同 Linux 用户的方式来实现多租户运行作业,因此该用户必须有免密的 sudo 权限。
deployUser="zhm"


# alert config
# mail server host
mailServerHost="smtp.exmail.qq.com"

# mail server port
# note: Different protocols and encryption methods correspond to different ports, when SSL/TLS is enabled, make sure the port is correct.
mailServerPort="25"

# sender
mailSender="xxxxxxxxxx"

# user
mailUser="xxxxxxxxxx"

# sender passwodolphinschedulerrd
# note: The mail.passwd is email service authorization code, not the email login password.
mailPassword="xxxxxxxxxx"

# TLS mail protocol support
starttlsEnable="true"

# SSL mail protocol support
# only one of TLS and SSL can be in the true state.
sslEnable="false"

#note: sslTrust is the same as mailServerHost
sslTrust="smtp.exmail.qq.com"

# user data local directory path, please make sure the directory exists and have read write permissions
dataBasedirPath="/tmp/dolphinscheduler"

# resource storage type: HDFS, S3, NONE
# 资源存储类型
resourceStorageType="HDFS"

# resource store on HDFS/S3 path, resource file will store to this hadoop hdfs path, self configuration, please make sure the directory exists on hdfs and have read write permissions. "/dolphinscheduler" is recommended
# 资源上传路径
resourceUploadPath="/dolphinscheduler"

# if resourceStorageType is HDF
# S,defaultFS write namenode address,HA you need to put core-site.xml and hdfs-site.xml in the conf directory.
# if S3,write S3 address,HA,for example :s3a://dolphinscheduler,
# Note,s3 be sure to create the root directory /dolphinscheduler
defaultFS="hdfs://hadoop102:8020"

# if resourceStorageType is S3, the following three configuration is required, otherwise please ignore
s3Endpoint="http://192.168.xx.xx:9010"
s3AccessKey="xxxxxxxxxx"
s3SecretKey="xxxxxxxxxx"

# resourcemanager port, the default value is 8088 if not specified
# yarn RM http 访问端口
resourceManagerHttpAddressPort="8088"

# if resourcemanager HA is enabled, please set the HA IPs; if resourcemanager is single, keep this value empty
# Yarn RM 高可用 ip,若未启用 RM 高可用,则将该值置空
yarnHaIps=""

# if resourcemanager HA is enabled or not use resourcemanager, please keep the default value; If resourcemanager is single, you only need to replace ds1 to actual resourcemanager hostname
# Yarn RM 主机名,若启用了 HA 或未启用 RM,保留默认值
singleYarnIp="hadoop103"

# who have permissions to create directory under HDFS/S3 root path
# Note: if kerberos is enabled, please config hdfsRootUser=
# 拥有 HDFS 根目录操作权限的用户
hdfsRootUser="zhm"

# kerberos config
# whether kerberos starts, if kerberos starts, following four items need to config, otherwise please ignore
kerberosStartUp="false"
# kdc krb5 config file path
krb5ConfPath="$installPath/conf/krb5.conf"
# keytab username
keytabUserName="hdfs-mycluster@ESZ.COM"
# username keytab path
keytabPath="$installPath/conf/hdfs.headless.keytab"
# kerberos expire time, the unit is hour
kerberosExpireTime="2"

# api server port
apiServerPort="12345"


# install hosts
# Note: install the scheduled hostname list. If it is pseudo-distributed, just write a pseudo-distributed hostname
# 将要部署任一 DolphinScheduler 服务的服务器主机名或 ip 列表
ips="hadoop102,hadoop103,hadoop104"

# ssh port, default 22
# Note: if ssh port is not default, modify here
sshPort="22"

# run master machine
# Note: list of hosts hostname for deploying master
# master 所在主机名列表,必须是 ips 的子集
masters="hadoop102"

# run worker machine
# note: need to write the worker group name of each worker, the default value is "default"
# worker主机名及队列,此处的 ip 必须在 ips 列表中
workers="hadoop102:default,hadoop103:default,hadoop104:default"

# run alert machine
# note: list of machine hostnames for deploying alert server
# 告警服务所在服务器主机名
alertServer="hadoop102"

# run api machine
# note: list of machine hostnames for deploying api server
apiServers="hadoop102"


3.5 初始化数据库


DolphinScheduler元数据储存在关系型数据库中,故需要创建相应的数据库和用户。

1、创建数据库

mysql> CREATE DATABASE dolphinscheduler DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci;
• 1

2、创建用户

mysql> CREATE USER 'dolphinscheduler'@'%' IDENTIFIED BY 'dolphinscheduler';
• 1

注意:若出现以下错误信息,表明新建用户的密码过于简单

3、赋予用户相应权限

mysql> GRANT ALL PRIVILEGES ON dolphinscheduler.* TO 'dolphinscheduler'@'%';
mysql> flush privileges;

4、拷贝MySQL驱动到DolphinScheduler的解压目录下的lib中(这个要根据自己的数据库版本)

cp /opt/software/mysql-connector-java-5.1.16.jar lib/
• 1

5、执行数据库初始化脚本

数据库初始化脚本位于DolphinScheduler解压目录下的script目录中,即/opt/software/ds/apache-dolphinscheduler-1.3.9-bin/script/

script/create-dolphinscheduler.sh
• 1


3.6 一键部署DolphinScheduler


1、启动Zookeeper集群

zk.sh start
• 1

2、一键部署并启动DolphinScheduler(脚本在解压的目录下)

./install.sh 
• 1

3、查看DolphinScheduler进程

image.png

4、访问DolphinScheduler UI

DolphinScheduler UI地址为http://hadoop102:12345/dolphinscheduler

初始用户的用户名为:admin,密码为dolphinscheduler123

image.png

3.7 DolphinScheduler启停命令


DolphinScheduler的启停脚本均位于其安装目录的bin目录下。

1、一键启停所有服务(要进其安装目录下启动)

./bin/start-all.sh
./bin/stop-all.sh

注意:和hadoop的启停脚本进行区分。

2、启停Master

./bin/dolphinscheduler-daemon.sh start master-server
./bin/dolphinscheduler-daemon.sh stop master-server

3、启听Worker

./bin/dolphinscheduler-daemon.sh start worker-server
./bin/dolphinscheduler-daemon.sh stop worker-server

4、启停API

./bin/dolphinscheduler-daemon.sh start api-server
./bin/dolphinscheduler-daemon.sh stop api-server

5、启停 Logger

./bin/dolphinscheduler-daemon.sh start logger-server
./bin/dolphinscheduler-daemon.sh stop logger-server

6、启停 Alert

./bin/dolphinscheduler-daemon.sh start alert-server
./bin/dolphinscheduler-daemon.sh stop alert-server


4、DolphinScheduler入门


4.1 安全中心配置


安全中心主要有租户管理、用户管理、告警组管理、告警实例管理、Worker分组管理、Yarn队列管理、环境管理、令牌管理等功能安全中心只有管理员账户才有操作权限。

image.png

4.1.1 租户管理


租户对应的是Linux的用户,用于Worker提交作业所使用的用户。如果Linux没有这个用户,则会导致任务运行失败。你可以通过修改work.properties配置文件中参数work.tenant,auto.create=true(默认值为false)实现当Linux用户不存在时自动创建该用户。work.tenant.auto.create=true参数会要求Worker可以免密运行sudo命令。

此处创建一个zhm租户,如下图。

注:

租户编码:是Linux上的用户,唯一,不能重复。

队列:该租户提交Yarn任务时的默认队列。


4.1.2 用户管理


用户对应的是DolphinScheduler的用户,用于登录DolphinScheduler。用户分管理员用户和普通用户。

管理员有授权和用户管理等权限,没有创建项目和工作流定义的操作的权限。

普通用户可以创建项目和对工作流定义的创建,编辑,执行等操作。

注意:如果该用户切换了租户,则该用户在租户下所以资源将复制到切换的新租户下

注:

用户名:DolphinScheduler登录账户

租户:该用户关联的租户

队列:默认为租户所关联的队列。

邮件、手机号:主要用于告警通知


4.1.3 告警组管理


告警组是在启动时设置的参数,在流程结束以后会将流程的状态和其他信息以邮件形式发送给告警组。

管理员进入安全中心->告警组管理页面,点击“创建告警组”按钮,创建告警组。

注意:

组名称:用户自定义的告警组名称。

告警插件实例:用户创建的告警实例。


4.1.4 Worker分组管理


在任务执行时,可以将任务分配给指定Worker组,最终由该组中的Worker节点执行该任务。每个worker节点都会归属于自己的Worker分组,默认分组为default。

1、Worker 分组修改方式一

打开要设置分组的worker节点上的"conf/worker.properties"配置文件. 修改worker.groups参数。

worker.groups参数后面对应的为该worker节点对应的分组名称,默认为default。

如果该worker节点对应多个分组,则以逗号隔开。


2、Worker 分组修改方式二

在运行中修改worker所属的worker分组,如果修改成功,worker就会使用这个新建的分组,忽略worker.properties中的配置。即方式二优先级高于方式一。修改步骤为"安全中心 -> worker分组管理 -> 点击 ‘新建worker分组’ -> 输入’组名称’ -> 选择已有worker -> 点击’提交’"。

如下图所示:


4.1.5 Yarn队列管理


队列是在执行spark、mapreduce等程序,需要用到“队列”参数时使用的。

此处的队列对应的是Yarn调度器的资源队列。故队列概念只对跑在Yarn上的任务类型有效。此处创建出的队列,可供后续任务进行选择。需要注意的是,在DolphinScheduler中创建队列,并不会影响到Yarn调度器的队列配置。

此处可不创建队列。

注意:

名称:DS 执行任务时可以选择的队列名称。

队列值:与名称相对应的 Yarn 调度队列的名称。


4.1.6令牌管理


令牌用于通过接口访问DolphinScheduler各项服务时的用户验证。普通用户通过UI页面访问各项服务时,无需使用令牌。若需将DolphinScheduler与第三方服务进行集成,则需调用其接口,此时需使用令牌。


4.2 项目管理

4.2.1 切换用户


默认不使用管理员用户操作项目和工作流等,故需先切换到普通用户zhm。

1、admin用户退出

2、使用zhm用户登录


4.2.2 创建项目



4.3 工作流基础配置


下图为工作流配置页面,一共包含三个模块,分别为工作流定义、工作流实例和任务实例。

工作流定义:用于定义工作流,包括工作流各节点任务详情及各节点依赖关系等。

工作流实例:工作流每执行一次就会生成一个工作流实例。此处可查看正在运行的工作流以及已经完成的工作流。

任务实例:工作流的一个节点任务,每执行一次就会生成一个任务实例。此次可用于查看正在执行的节点任务以及已经完成的节点任务。


4.3.1 工作流定义


工作流要求:工作流需要包含三个Shell类型的任务节点,分别是A、B、C。三个任务的依赖关系如下图所示:

1、创建节点流

2、配置任务节点

(1)节点A

(2)节点B

(3)节点C

3、配置任务节点的依赖关系

(1)直接对DAG图进行操作

2、保存工作流定义


4.3.2 提交执行工作流


1、上线工作流

工作流需要上线之后才能执行。处于上线状态的工作流定义不可修改,如需修改,需先下线。


2、单次运行工作流

3、定时执行工作流

(1)点击定时


(2)配置定时规则(此处配置的是每5秒)

(3)定时管理

(4)定时上线

(5)查看工作流实例


4.3.3 查看任务实例


1、查看所有任务实例

2、查看任务实例日志


5、DolphinScheduler进阶


5.1 工作流传参


DolphinScheduler支持对任务节点进行灵活的传参,任务节点可通过${参数名}引用参数值。


5.1.1 内置参数


DolphinScheduler提供了一些时间相关的系统参数,方便定时调度使用。

1、基础内置参数

变量名

参数

说明

system.biz.date

${system.biz.date}

定时时间前一天,格式为 yyyyMMdd

system.biz.curdate

${system.biz.curdate} 定时时间,格式为 yyyyMMdd

system.datetime

${system.datetime} 定时时间,格式为 yyyyMMddHHmmss

2、衍生内置参数

可通过衍生内置参数,设置任意格式、任意时间的容器

(1)自定义日期格式

可以对 $[yyyyMMddHHmmss] 任意分解组合,如 $[yyyyMMdd], $[HHmmss], $[yyyy-MM-dd]。

(2)使用add_months() 函数

该函数用于加减月份, 第一个入口参数为[yyyyMMdd],表示返回时间的格式 第二个入口参数为月份偏移量,表示加减多少个月。

参数 说明
$[add_months(yyyyMMdd,12*N)] 后 N 年
$[add_months(yyyyMMdd,-12*N)] 前 N 年
$[add_months(yyyyMMdd,N)] 后 N 月
$[add_months(yyyyMMdd,-N)] 前 N 月

(3)直接加减数字  

在自定义格式后直接“+/-”数字,单位为“天”。

参数 说明

$[yyyyMMdd+7*N]

后 N 年

$[yyyyMMdd-7*N]

前 N 年

$[yyyyMMdd+N]

后 N 月

$[yyyyMMdd-N]

前 N 月

$[HHmmss+N/24]

后 N 小时

$[HHmmss-N/24]

前 N 小时

$[HHmmss+N/24/60]

后 N 分钟

$[HHmmss-N/24/60]

前 N 分钟

3、配置示例

若执行的脚本需要一个格式为yyyy-MM-dd的前一天日期的参数,进行如下配置即可。


5.1.2 全局参数


全局参数是指针对整个工作流的所有任务节点都有效的参数,在工作流定义页面配置。

1、修改DAG测试工作流每个任务节点如下

(1)节点A配置(B、C都这样配置脚本内容就可以)

2、保存工作流,并设置全局参数

3、执行工作流,查看三个任务节点输出日志


5.1.3 本地参数


局部参数是指只针对单个任务节点有效的参数


5.1.4 参数传递


1、本地任务使用全局参数

通过 ${param} 方式引用全局参数,5.1.2 节中各节点的配置就引用了全局参数。

2、上游任务传递给下游任务

目前传递方向仅支持上游单向传递给下游。目前支持这个特性的任务类型有:Shell、SQL、Procedure。

如果要将该节点的结果传递给有依赖关系的下游节点,当定义上游节点时,需要在设置自定义参数时选择方向为 OUT。


5.1.5 参数优先级


(1)本地参数 > 全局参数 > 上游任务传递的参数;

(2)多个上游节点均传递同名参数时,下游节点会优先使用值为非空的参数;

(3)如果存在多个值为非空的参数,则按照上游任务的完成时间排序,选择完成时间最早的上游任务对应的参数。


5.2 引用依赖资源


有些任务需要引用一些额外的资源,例如MR、Spark等任务须引用jar包,Shell任务需要引用其他脚本等。DolphinScheduler提供了资源中心来对这些资源进行统一管理。


如果需要用到资源上传功能,针对单机可以选择本地文件目录作为上传文件夹(此操作不需要部署 Hadoop)。当然也可以选择上传到 Hadoop or MinIO 集群上,此时则需要有Hadoop (2.6+) 或者 MinIO 等相关环境。本文在部署 DS 集群时指定了文件系统为 HDFS。


1、文件管理

文件管理是对各种资源文件的管理,包括创建基本的txt/log/sh/conf/py/java等文件、上传jar包等各种类型文件,可进行编辑、重命名、下载、删除等操作。

(1)创建文件

(2)上传文件

点击"上传文件"按钮进行上传,将文件拖拽到上传区域,文件名会自动以上传的文件名称补全。

(3)引用文件

(3)引用文件

2、UDF管理

(1)资源管理

资源管理和文件管理功能类似,不同之处是资源管理是上传的UDF函数,文件管理上传的是用户程序,脚本及配置文件 操作功能:重命名、下载、删除。上传方式同上。

(2)函数管理

创建 UDF 函数。

UDF函数名称:输入UDF函数时的名称

包名类名:输入UDF函数的全路径

UDF资源:设置创建的UDF对应的资源文件


5.3 数据源配置


数据源中心支持MySQL、POSTGRESQL、HIVE/IMPALA、SPARK、CLICKHOUSE、ORACLE、SQLSERVER等数据源。

此处仅对 HIVE 数据源进行介绍。

1、配置Hive数据源

数据源:选择HIVE。

数据源名称:输入数据源的名称。

描述:输入数据源的描述,可置空。

IP/主机名:输入连接HIVE的IP。

端口:输入连接HIVE的端口,默认 10000。

用户名:设置连接HIVE的用户名,如果没有配置 HIVE 权限管理,则用户名可以任意,但 HIVE 表数据存储在 HDFS,为了保证对所有表的数据均有操作权限,此处选择 HDFS 超级用户 atguigu(注:HDFS 超级用户名与执行 HDFS 启动命令的 Linux 节点用户名相同)。

密码:设置连接HIVE的密码,如果没有配置 HIVE 权限管理,则密码置空即可。

数据库名:输入连接HIVE的数据库名称。

Jdbc连接参数:用于HIVE连接的参数设置,以JSON形式填写,没有参数可置空。


2、使用Hive数据源

(1)新建 SQL 节点

(2)配置节点

节点名称:自定义节点名称。

环境名称:HIVE 执行所需环境

数据源:类型选择 HIVE,数据源选择上文配置的 HIVE 数据源。

SQL 类型:根据SQL 语句选择,此处选用默认的“查询”即可。

SQL 语句:要执行的 SQL 语句,末尾不能有分号,否则报错:语法错误。


5.4 告警实例配置


5.4.1 邮箱告警实例配置


如需使用DolphinScheduler的邮件告警通知功能,需要准备一个电子邮箱账号,并启用SMTP服务。此处以 QQ 邮箱为例。

1、POP3,IMAP,SMTP

(1)POP3

POP3是Post Office Protocol 3的简称,即邮局协议的第3个版本,它规定怎样将个人计算机连接到Internet的邮件服务器和下载电子邮件的电子协议。它是因特网电子邮件的第一个离线协议标准,POP3允许用户从服务器上把邮件存储到本地主机(即自己的计算机)上,同时删除保存在邮件服务器上的邮件,而POP3服务器则是遵循POP3协议的接收邮件服务器,用来接收电子邮件的。(与IMAP有什么区别?)

(2)SMTP

SMTP 的全称是“Simple Mail Transfer Protocol”,即简单邮件传输协议。它是一组用于从源地址到目的地址传输邮件的规范,通过它来控制邮件的中转方式。SMTP 协议属于 TCP/IP 协议簇,它帮助每台计算机在发送或中转信件时找到下一个目的地。SMTP 服务器就是遵循 SMTP 协议的发送邮件服务器。

SMTP 认证,简单地说就是要求必须在提供了账户名和密码之后才可以登录 SMTP 服务器,这就使得那些垃圾邮件的散播者无可乘之机。

增加 SMTP 认证的目的是为了使用户避免受到垃圾邮件的侵扰。

(3)IMAP

IMAP全称是Internet Mail Access Protocol,即交互式邮件存取协议,它是跟POP3类似邮件访问标准协议之一。不同的是,开启了IMAP后,您在电子邮件客户端收取的邮件仍然保留在服务器上,同时在客户端上的操作都会反馈到服务器上,如:删除邮件,标记已读等,服务器上的邮件也会做相应的动作。所以无论从浏览器登录邮箱或者客户端软件登录邮箱,看到的邮件以及状态都是一致的。

(4)邮件发送流程

i)DS 使用 mail.sender 指定的邮箱发送邮件到 SMTP 服务器,要求此邮箱开启 SMTP 服务;

ii)SMTP 服务将邮件转交给 POP3 或 IMAP 服务,经测试,通常SMTP 服务和 POP3 或 IMAP 服务处于同一台服务器;

iii)收件邮箱客户端从 IMAP/POP3 服务器拉取邮件,某些邮箱可以设置邮件刷新时间,以此来控制客户端从服务端拉取邮件的频率。

iv)需要注意:此处的邮件客户端均为第三方右键客户端,登陆邮箱输入的密码为授权码,使用 web 端收发邮件的流程可能有所不同。


2、获取授权码

(1)开启SMTP服务

拖动进度条在页面下方找到下图所示内容,开启 POP3/SMTP | IMAP/SMTP 任一服务即可。

(2)生成授权码

点击“生成授权码”,按照提示信息操作后点击“我已发送”即可生成授权码。授权码可以生成多次,若遗忘重新生成即可。

3、DolphinScheduler 配置

(1)什么配置好了要重启alert服务,可以单点重启,也可以全部重启

(2)设置告警组(要切换回管理员用户去设置)

设置工作流的用户加入该组

再切换回zhm用户去执行工作流

最后看自己的邮箱有没有收到信息

相关实践学习
数据库实验室挑战任务-初级任务
本场景介绍如何开通属于你的免费云数据库,在RDS-MySQL中完成对学生成绩的详情查询,执行指定类型SQL。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
18天前
|
Cloud Native OLAP OLTP
在业务处理分析一体化的背景下,开发者如何平衡OLTP和OLAP数据库的技术需求与选型?
在业务处理分析一体化的背景下,开发者如何平衡OLTP和OLAP数据库的技术需求与选型?
119 4
|
24天前
|
Cloud Native 数据处理 云计算
探索云原生技术在大数据分析中的应用
随着云计算技术的不断发展,云原生架构作为一种全新的软件开发和部署模式,正逐渐引起企业的广泛关注。本文将探讨云原生技术在大数据分析领域的应用,介绍其优势与挑战,并探讨如何利用云原生技术提升大数据分析的效率和可靠性。
|
4天前
|
分布式计算 Hadoop 大数据
大数据技术与Python:结合Spark和Hadoop进行分布式计算
【4月更文挑战第12天】本文介绍了大数据技术及其4V特性,阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce,Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop,可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop,以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。
|
13天前
|
NoSQL 大数据 数据挖掘
现代数据库技术与大数据应用
随着信息时代的到来,数据量呈指数级增长,对数据库技术提出了前所未有的挑战。本文将介绍现代数据库技术在处理大数据应用中的重要性,并探讨了一些流行的数据库解决方案及其在实际应用中的优势。
|
18天前
|
机器学习/深度学习 人工智能 数据可视化
基于Python的数据可视化技术在大数据分析中的应用
传统的大数据分析往往注重数据处理和计算,然而数据可视化作为一种重要的技术手段,在大数据分析中扮演着至关重要的角色。本文将介绍如何利用Python语言中丰富的数据可视化工具,结合大数据分析,实现更直观、高效的数据展示与分析。
|
25天前
|
存储 NoSQL 大数据
新型数据库技术在大数据分析中的应用与优势探究
随着大数据时代的到来,传统数据库技术已经无法满足海量数据处理的需求。本文将探讨新型数据库技术在大数据分析中的应用情况及其所带来的优势,为读者解析数据库领域的最新发展趋势。
|
26天前
|
存储 分布式计算 大数据
现代化数据库技术——面向大数据的分布式存储系统
传统的关系型数据库在面对大规模数据处理时遇到了诸多挑战,而面向大数据的分布式存储系统应运而生。本文将深入探讨现代化数据库技术中的分布式存储系统,包括其优势、工作原理以及在大数据领域的应用。
|
1月前
|
分布式计算 大数据 Hadoop
数据仓库(13)大数据数仓经典最值得阅读书籍推荐
从事数仓工作,在工作学习过程也看了很多数据仓库方面的数据,此处整理了数仓中经典的,或者值得阅读的书籍,推荐给大家一下,希望能帮助到大家。建议收藏起来,后续有新的书籍清单会更新到这里。
80 2
数据仓库(13)大数据数仓经典最值得阅读书籍推荐
|
1月前
|
大数据 Java Go
Go语言在大数据处理中的核心技术与工具
【2月更文挑战第22天】本文深入探讨了Go语言在大数据处理领域的核心技术与工具。通过分析Go语言的并发编程模型、内存管理、标准库以及第三方工具库等方面,展现了其在大数据处理中的优势和实际应用。同时,本文也讨论了如何使用这些技术与工具构建高效、稳定的大数据处理系统,为开发者提供了有价值的参考。
|
1月前
|
分布式计算 大数据 Apache
大数据技术变革正当时,Apache Hudi了解下?
大数据技术变革正当时,Apache Hudi了解下?
24 0

相关产品

  • 云原生大数据计算服务 MaxCompute