阿里大数据运维新成员——24小时待命!有求必应!能说会做!

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
NLP 自学习平台,3个模型定制额度 1个月
简介: 阿里大数据计算平台包含了广泛的数据计算相关产品与服务,包括MaxCompute通用计算、StreamCompute实时流计算、PAI机器学习、Flash图计算及其上的一站式开发平台Dataworks。

序言

阿里大数据计算平台包含了广泛的数据计算相关产品与服务,包括MaxCompute通用计算、StreamCompute实时流计算、PAI机器学习、Flash图计算及其上的一站式开发平台Dataworks。同时计算平台拥有着多个全球机房、十万多机器的部署规模,在这样的体量下,线上的作业故障分析与用户咨询变成了日常工作,在高峰期我们的值班小二一天需对外服务数百次,不停响起的钉钉声,也变成了办公室的一种背景噪音。

这样的人肉运维显然不是我们技术人应有的工作状态,所以我们推出了智能机器人来作为我们值班一线,它帮助平台外部用户解惑排障,也帮助平台内部运维高效工作:

image

本文选择其中的智能排障与智能答疑两个场景来展开介绍。

1智能排障

大数据计算平台底层都是分布式系统,从纵向看,软件栈上涉及自下而上有硬件、操作系统、分布式存储、分布式调度、分布式锁、Runtime、API Server等极其复杂的模型;从横向上看,数据的采集、传输、在线计算、离线计算、存储等,数据的整个生命周期涉及系统很多。这就导致了问题的定位非常复杂,比如流计算Blink业务场景的智能诊断而言,一个流计算作业运行过程要面临以下复杂的问题:

  • 作业所处分布式环境的机器数量多(横向),一个复杂的Blink作业可能涉及上千个Container资源运行在上千台机器上,一个Container中运行几十个blink subtask并发线程
  • 作业相关组件数量多,各组件指标多(纵向),blink层本身每个subtask有delay、tps、latency、checkpoint相关等几十指标,Container有队列cpu资源、mem资源等指标、操作系统有CPU、磁盘、网络等相关指标。

image


基于以上问题,结合帮助用户解决问题和提高平台稳定性的角度出发,结合数据驱动运维的思路,机器人诊断推出了一键诊断的功能,从众多机器、指标中找出异常节点指标,帮助用户快速定位作业问题。主要包括以下几大类:

应用场景举例

智能答疑机器人有一个核心功能就是对接各个大数据平台的智能诊断,拿流计算平台而言,用户可以便捷的at机器人+作业/集群/机器对运维实体进行基本信息查看和作业诊断。

1、作业诊断

  • 作业信息

通过机器人能快捷查看作业的基础信息,包括优先级、版本、集群、用户等,还能有对该作业的运维操作。

image

  • 资源不足

每个用户都有自己的预算和可用资源,一旦资源不够会导致用户作业无法提交,通过诊断功能可以给用户清晰的告诉用户现在是哪个队列异常,资源不够,具体还差多少,并且有闭环扩容功能提示用户一键扩容。

image

  • 机器硬件故障

集群有几万台机器,每天由于硬件故障导致上下线机器是非常频繁的,机器硬件故障会到作业触发FailOver,用户会咨询作业重启原因,智能诊断可以给出“时光机”般的快照:

image

  • 数据上下游问题

一个流计算作业会从上游读取数据,消费完成后写到下游,涉及到多个系统交互。有时候并不是Blink系统本身的问题,而是数据上下游系统出问题了,类似被限流、没数据等场景,机器人诊断打通上下游系统的诊断数据,会给出诊断建议:

image

二、集群/机器诊断

  • 集群诊断

一个集群由上万台机器组成,上面部署了分布式系统,各个复杂的模块协同工作,彼此互相依赖。一旦集群出问题,基本上都是大故障,如果在故障时候第一时间定位到具体是哪个服务模块有问题,从而进行详细诊断:

image

  • 机器诊断

机器诊断能快速定位机器上所有模块是否正常,比如Load过高,可以通过详细诊断具体是哪个作业导致的;通用的逻辑还适用于Cpu过高、线程数过高、IO Util打满,从而迅速定位业务作业,并进行相应的自愈

image

智能答疑

平台用户在开发与运行作业过程中,经常会碰到各种疑惑,包括:

  • 资源不够怎么扩容?怎么追加预算?
  • 我的作业FailOver是什么原因?
  • 集群是不是有变更?机器是不是硬件有问题?
  • 各种SQL语法、参数、配置问题?
  • ...

此类问题的解答场景,其数量之多、知识面之广,使技术小二答疑难度堪比参加高考。

虽然平台具备完整的用户文档,但我们发现用户依然喜欢在工作群中向小二直接提出问题,原因是:

  • 用户希望立即得到准确的答案,而不是需要在关键字匹配的文档中进行翻阅
  • 群里可以形成讨论,有类似经验的人员可以帮助解决问题

如今大家在碰到问题时,都非常喜欢使用搜索引擎,因此我们只需要将搜索能力引入到机器人中,配合适当的自然语言分词技术,就可以让机器人起到答疑一线的作用,解决大部份常见问题。

image

同时,为了让答疑能有更好的效果,需要在以下环节下功夫,提高数据与回复质量:

  • 答疑知识库的丰富性:足够丰富的知识内容,才能满足各类关键字的检索,这点下文会介绍知识图谱;
  • 答疑知识的关键字标注:对已有的知识提供适当的标签与关键字列表来提高匹配效果,减少不同领域的知识噪音;
  • 用户提问的分词领域化:提供各领域的分词优化,去除人类语言中的无意义单词,保留关键字;
  • 答案的排名优化:当搜索到多个结果时,需使用匹配度与历史点击率,来优化知识列表,提高首页知识命中率;

应用场景举例

在日常值班过程中,答疑占据了一大部分精力,值班同学要面对小白用户、资深用户、开发运维等各种答疑问题,智能答疑机器人上线后可以自助答疑,后面对接了业务的知识库,解决了这一大痛点。

  • SQL语法类

用户在日常写SQL过程中,针对语法类的使用可以直接通过机器人搜索,定位到知识库,大大提升写代码的效率。

image

  • 运维操作类

对于常规的运维操作,比如:权限申请、资源扩容等可以通过机器人二次交互直达功能:

image

  • 信息查询:

日常答疑过程中的针对“热点”问题做了“定制化”回复,比如想知道集群此刻是否有变更?过去、未来一段时间是否有变更,集团封网和熔断的时间点。

image

机器人技术

目前在社交平台上中增加机器人是一件很容易的事,以下就是一段号称价值百万的机器人代码:

image

开个玩笑:),实际上大家都知道自然语言处理(NLP)是非常难的领域,但因为NLP难而不做机器人是一个误区。

在我们工作中可以起到帮助的机器人,并不需要在NLP上有多大的投入,而关键是提供足够的知识与服务支撑,来满足特定领域的业务需求,机器人只是起到一个门户效果,也可以理解它是一个存在于社交平台上的搜索入口。下图是我们的机器人服务生态架构:

image

知识图谱

可以看出,在问答领域,知识图谱起到了机器人的大脑记忆库的核心作用,其的知识丰富性与检索质量,是提高答复效率的关键。同时,由于运维领域还存在海量的实体数据(主机、作业、应用等等),知识图谱并不能简单的使用问答库来进行建设。因此我们提出知识图谱概述,采用ElasticSearch作为核心数据库,结合数据联邦、同步、爬虫实现各类运维内容的统一与检索入口:

image

随着知识图谱接入内容的增加,它很快也变成了一个庞大的怪物。初期发展可能还能够采用统一的存储,但是随着业务的发展,我们将越来越难通过统一的存储完成完整的知识图谱的构建,而且由于历史原因,我们本来就有大量结构化的数据存储在不同的产品上,我们应该借助于这些产品已有的存储计算能力来统一构建知识图谱,而不是抛弃他们,这样可以以最小的代价拿到最好的结果。

5运维平台

而计算平台的自动化运维系统Tesla,则为机器人提供了强大的能力支持。通过机器人的服务插件体系,将运维系统的答疑、诊断、运维等服务,都集成到机器人中。使机器人成为一个来自社交平台的服务与流量入口,用户可以从机器人处直接到到一些功能的结果(如诊断),也可以点击链接进入平台使用具体的功能。

image

小结

我们的新成员已经投入工作一年多,独当一面能完成具体的服务引导与排障答疑等场景。我们后续还将继续在以下方面进行改进:

  • 增加知识的阅读理解能力,以便根据长篇的文档形成简短的问题答案,加快现有知识文档的转换;
  • 提高自然语言理解能力,如通过提问的相似度计算,来解答同一个问题的多种不同提法;
  • 增加个性化服务,针对用户形成个性化结果推荐与相关信息主动通知。

原文发布时间为:2019-03-27
本文作者: 王华/蒋君伟
本文来自云栖社区合作伙伴“AliDataOps”,了解相关信息可以关注“ AliDataOps”。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
16天前
|
机器学习/深度学习 人工智能 运维
智能化运维:AI与大数据在IT运维中的应用探索####
本文旨在探讨人工智能(AI)与大数据分析技术如何革新传统IT运维模式,提升运维效率与服务质量。通过具体案例分析,揭示AI算法在故障预测、异常检测及自动化修复等方面的实际应用成效,同时阐述大数据如何助力实现精准运维管理,降低运营成本,提升用户体验。文章还将简要讨论实施智能化运维面临的挑战与未来发展趋势,为IT管理者提供决策参考。 ####
|
2月前
|
人工智能 运维 自然语言处理
对话蚂蚁开源蒋炜:让 Agent 把运维人员从 24 小时的待命中解放出来
当整个行业的智慧都集中在一件事情上时,比起闭门造车,开源一定能带来更好的技术迭代和发展。CodeFuse 「编码挑战季」活动火热进行中,诚邀广大开发者们参与编码挑战
127 3
对话蚂蚁开源蒋炜:让 Agent 把运维人员从 24 小时的待命中解放出来
|
4月前
|
运维 算法 数据可视化
【2021 高校大数据挑战赛-智能运维中的异常检测与趋势预测】2 方案设计与实现-Python
文章详细介绍了参加2021高校大数据挑战赛中智能运维异常检测与趋势预测任务的方案设计与Python实现,包括问题一的异常点和异常周期检测、问题二的异常预测多变量分类问题,以及问题三的多变量KPI指标预测问题的算法过程描述和代码实现。
80 0
|
2月前
|
机器学习/深度学习 人工智能 运维
智能运维:大数据与AI的融合之道###
【10月更文挑战第20天】 运维领域正经历一场静悄悄的变革,大数据与人工智能的深度融合正重塑着传统的运维模式。本文探讨了智能运维如何借助大数据分析和机器学习算法,实现从被动响应到主动预防的转变,提升系统稳定性和效率的同时,降低了运维成本。通过实例解析,揭示智能运维在现代IT架构中的核心价值,为读者提供一份关于未来运维趋势的深刻洞察。 ###
112 10
|
5月前
|
数据采集 运维 Cloud Native
Flink+Paimon在阿里云大数据云原生运维数仓的实践
构建实时云原生运维数仓以提升大数据集群的运维能力,采用 Flink+Paimon 方案,解决资源审计、拓扑及趋势分析需求。
18529 54
Flink+Paimon在阿里云大数据云原生运维数仓的实践
|
4月前
|
存储 运维 Cloud Native
"Flink+Paimon:阿里云大数据云原生运维数仓的创新实践,引领实时数据处理新纪元"
【8月更文挑战第2天】Flink+Paimon在阿里云大数据云原生运维数仓的实践
291 3
|
4月前
|
机器学习/深度学习 运维 算法
【2021 高校大数据挑战赛-智能运维中的异常检测与趋势预测】1 赛后总结与分析
对2021高校大数据挑战赛中智能运维异常检测与趋势预测赛题的赛后总结与分析,涉及赛题解析、不足与改进,并提供了异常检测、异常预测和趋势预测的方法和模型选择的讨论。
126 0
【2021 高校大数据挑战赛-智能运维中的异常检测与趋势预测】1 赛后总结与分析
|
5月前
|
分布式计算 运维 DataWorks
MaxCompute操作报错合集之用户已在DataWorks项目中,并有项目的开发和运维权限,下载数据时遇到报错,该如何解决
MaxCompute是阿里云提供的大规模离线数据处理服务,用于大数据分析、挖掘和报表生成等场景。在使用MaxCompute进行数据处理时,可能会遇到各种操作报错。以下是一些常见的MaxCompute操作报错及其可能的原因与解决措施的合集。
|
5月前
|
SQL Java 大数据
开发与运维应用问题之大数据SQL数据膨胀如何解决
开发与运维应用问题之大数据SQL数据膨胀如何解决
|
5月前
|
数据采集 监控 关系型数据库
大数据运维之数据质量管理
大数据运维之数据质量管理
129 0
下一篇
DataWorks