暂无个人介绍
在系统运维过程中,关键指标的异常变化往往意味着服务异常、系统故障等等。因此我们往往会对一些关键指标进行自动巡检,例如异常检测和时序预测等等,及时感知指标的异常变化,了解系统的健康状况。对于复杂系统来说,感知到异常后直接在系统层面根因定位可能是十分困难的。因此我们需要一些手段缩小问题的排查范围或者直接定位问题,如使用 trace 根因分析等等。阿里云日志服务上线了下探分析功能,用于多维指标异常根因定位。我们将介绍该功能的使用场景和使用案例。
我们将 SLS 的智能异常分析功能中的文本分析功能调整为模板发现和模板匹配两个子任务,提高了其在模板管理和应用上的灵活性。这里以对内部神农系统的运行日志监控为例,介绍改版后任务的使用场景与流程。
阿里云日志服务 SLS 智能异常分析 APP 基于机器学习算法,提供各类智能异常检测与运维能力,包括对于时序数据的异常检测和趋势预测,对于文本数据的聚类分析,以及对于系统拓扑架构的根因分析。这里我们主要介绍针对日志文本数据的文本分析作业。无论是传统的单点架构,还是日益普及的微服务架构,都为了应对业务的变化变得越来越庞大与复杂,同时对于这些系统的运维逐渐困难且成本逐渐增高。为了缓解运维人员的压力、降低运维成本,SLS 文本分析作业着眼于日志数据,这种大多数系统都会提供的重要的监控数据,提供对于日志中文本数据的聚类分析能力,帮助运维人员更好的了解海量系统日志的全貌,及时察觉潜在风险。
日志服务 SLS 智能异常分析 APP 提供自动化、智能化时序预测能力,可以根据历史数据预测时序指标接下来一段时间的走势。您可以使用指标的走势并配合告警对于系统的潜在风险进行预警,例如当某个指标的预测值超过某个阈值时对运维人员进行告警;另外指标的走势也可以帮助您及时进行决策,例如预测到 CPU 使用率将会持续上升时,及时对系统进行扩缩容。
日志服务 SLS 智能异常分析 APP 中文本分析作业可以自动分析日志内容、检测日志内容的异常变化,将日志中的异常事件以报表的形式呈现。我们可以通过查看分析报表了解系统的健康状态,通过分析异常事件及时感知系统的潜在风险或者在系统异常时快速定位根因。
在大型计算机系统中,比如云服务系统,异常和错误会影响大量用户,及时准确的找出异常可以有效的保证系统的可靠性。软件系统的不断演进,要求异常检测系统可以处理软件升级或者冷启动后出现未知数据,难以检测是否是异常的问题。论文使用预训练语言模型,在日志维度使用日志的语义特征,实现在系统更新或冷启动后有效检测日志中出现的异常数据,并通过实验验证了方法的可靠性和有效性,进一步拓展了这一方向研究的可能性。