作者：藏红

一、引言

阿里云实时计算 Flink 作为一款专业级别的高性能实时大数据处理系统，它在各种业务场景中都发挥了关键的作用。丰富而复杂的上下游系统让它能够支撑实时数仓、实时风控、实时机器学习等多样化的应用场景。然而，随着系统的复杂性增加，用户在日常使用中往往需要面临诸如复杂的数据开发报错分析、任务运行报错处理、任务运行调优等疑难问题。

然而，由于错误日志分析透出和全链路异常诊断能力方面存在一定的不足。这些问题通常较难通过自助机器人进行拦截和排查。由此，用户不得不通过提交工单等方式寻求支持，这种情况又会导致人工服务单量大幅上涨，给运维团队带来了不小的压力。

为了解决这些问题，我们设计了一款数智运维工具：Flink 智能诊断（Advisor）。这个工具的目标是解决用户在使用 Flink 全托管产品全生命周期中可能遇到的各种难题。Flink 智能诊断通过精准的错误诊断和优化建议，能够提升用户使用 Flink 的体验，降低了对人工服务的依赖。

二、问题分解

通过对大量的 Flink 用户案例分析，我们将常见的 Flink 的问题分成 错误日志分析、异常分析（影响作业当前运行）、风险分析（不影响当前运行） 三个大类，并为其制定了明确的分析项目。

错误日志分析

分析内容为当前作业抛出的日志栈，分析包含两个阶段：

开发阶段: 开发状态的异常日志栈分析，如常见的语法错误、表模式配置错误等。
运行阶段: 作业运行过程中产生的异常日志栈分析，如上游 binlog 过期、Time 字段存在 Null 脏数据等。

异常分析

主要分析内容为影响作业当前运行的问题，分析包含三个阶段：

启动阶段: 启动文件分析、依赖的云资源分析、数据源权限探测、网络分析、Session 集群分析等。
运行阶段: Checkpoint 检查、权限检查、状态检查等。
停止阶段: 停止速度分析。

风险分析

主要分析内容为不影响作业运行的问题，分析包含两个阶段：

配置阶段：JobGraph 检查、版本检查、HA 检查等
运行阶段：Checkpoint 检查、作业运行环境检查等。

三、核心技术

工程架构

Flink 智能诊断的技术架构分为数据层、服务层和业务层：

数据层

向服务层提供诊断所需的实时数仓能力，它将基础集群（Kubernetes）、产品引擎（VVP&Flink）的基础数据，经过大数据&AI 计算引擎进行 ETL、聚类、分析，最终将数据存储到数智平台的实时数仓中。这些数据包含用户 Flink 作业全生命周期的完整可观测数据，为分析用户全托管Flink产品提供底层数据支持。

服务层

服务层提供了两种能力，分别为错误日志分析服务，用于分析用户开发、运维过程产生的实时日志信息；以及作业诊断服务，提供更多纬度的数据分析能力，包含数据层提供的 Flink 全生命周期数据。两种能力通过接口层提供错误日志诊断、作业健康分、作业深度诊断服务，为业务层提供多样的作业探查能力提供底层支持。

错误日志分析服务：借助数智平台提供的日志聚类&推荐算法，建立服务于 Flink 业务场景的错误日志知识库，沉淀了 *用户报错信息输入 - 错误日志库聚类日志 - 产研/SRE 分析 - 日志打标 - 回馈用户解决方案* 这样一套完善的错误日志分析方法。相比于传统工单方式，错误日志诊断服务打通用户问题直接触达产研的渠道，真正帮助用户解决面临的高优报错问题，提高了用户问题解决的效率。错误日志诊断服务通过引入日志聚类能力，解决传统日志分析场景通过正则匹配方式面临的信息拟合准确度问题以及海量信息去重的难题。其他关于日志聚类细节会在技术创新部分详解。
作业诊断服务：调度引擎是智能诊断的大脑，通过读取数据层 Flink 完整生命周期的数据，会定期轮训执行决策树，并产出诊断结果。决策树中沉淀了 Flink 产研/SRE 数载打磨Flink产品沉淀下来的专家经验，包含作业报错、作业性能、作业配置、底层运行环境风险等。将这些作业面临的风险通过数条诊断项形式透出给接口层，帮助用户实现全托管、免运维的产品体验。

业务层

通过调用接口层封装了不同形式的 Flink 诊断数据，实现了多入口的数据查询能力，包括 VVP（阿里云实时计算 Flink 用户作业控制台）、钉钉答疑机器人和 ABM 诊断等。不同使用方通过以上入口获取到 Flink 作业的异常信息以及解决方案，最终帮助终端解决作业异常，助力 Flink 实时计算产品稳定流畅运行。