暂无个人介绍
2021年12月
磁盘问题:扩缩容异常、读写异常
网络问题:网络链路层异常、网卡丢包、网卡加载异常
ECS服务问题:虚拟化异常、底层物理机故障
实例配置问题:实例启动异常、镜像加载异常
1.多次反复沟通流程
2.处理时间较长
3.客服操作不透明
专家经验是基于案例库和知识库抽象出来的各种逻辑规则,比如 ECS 启动失败原因可能是库存原因、调度原因、块存储、控制侧异常、Guest OS启动异常、底层虚拟化异常等。
专家经验:由大量的工单经过一线、二线及三线人工客服形成
案例库:是阿里云内部的
知识库:是提供给用户用的
诊断决策树有三个关键要素,包括:
1.专家经验
2.案例库
3.知识库
进入投票模型,投票到各种各样的优先级的sls预测数据中,包括运维高优先级,运维中优先级,异常低概率,当precision大于50%时进入主动运维监控报警中心,产生告警。
进行数据处理,特征数据进入到实时预测模型中,进行:
1.非预测宕机模型
2.可预测宕机模型
3.混合模型
4.高准确率、高召回模型。
采集原始数据,包括:
1.CE原始数据、特征
2.conman、CE隔离
3.静态特征、xperf。
实时内存异常感知指的是当内存出现可能预期的错误时,会影响到虚拟机的稳定性,因此需要第一时间识别到内存的错误并进行内存的替换。
从采集数据源角度可以分为:
1.物理机数据
2.虚拟化数据
3.网络数据
4.控制面数据
5.Guest OS内数据。
实时数据:用户当前的健康数据、网络数据
准实时数据:用户当前的操作记录、监控数据
数据采集中分为三类数据,包括:
1.实时数据
2.准实时数据
3.离线数据
1.ECS 服务自身的健康诊断
2.磁盘健康诊断
3.网络健康诊断
4.Guest OS 健康诊断
数据中台涉及:
1.数据采集
2.数据清洗
3.数据分析
4.数据模型
1.特征分类是针对用户的操作和异常进行分类,将用户的操作、配置、异常分配到具体的根因上。
2.态势感知是对风险的预测。
用户画像是针对用户本身的属性进展诊断,不同的用户往往有不同的操作记录,不同的异常问题,以及不同的行为,这都需要不同的诊断,因此用户画像和行为分析可以辅助自助诊断。
根因分析是指,在日志数据和Guest OS中发现很多可能的问题原因,但究竟哪个是真正的 root cause 则需要 AI 做分析。人分析时会看时间,发生的顺序,调用链路,AI也是同样的逻辑。
一切权限可控,阿里云所有的操作都是通过RAM角色,而RAM角色是由管理员自己配置,随时修改或禁用 RAM 角色的 RAM 功能。
一切操作可回滚,通过镜像和快照实现整机的数据备份。首先是进行操作系统内的数据备份,在无法回滚时进行整机的数据备份。