数据洞察创新挑战赛-智能运维赛新手训练营:课时1:日志服务 SLS 可观测数据分析平台介绍
课时1:日志服务,SLS,可观测数据分析平台介绍
内容:
一、阿里云数据洞察创新挑战赛的介绍
二、学习智能运维赛道的课程
一、阿里云数据洞察创新挑战赛的介绍
数据洞察创新挑战赛是由阿里云主办的,面向广大开发者的技术竞赛。本次竞赛设置智能运维赛和数据创新管理赛两大赛道,旨在鼓励开发者利用阿里云存储产品和服务,开发出创新的应用和解决方案,展示技术实力和创新思维,为行业发展和社会进步贡献力量。
本次大赛设有双赛道,共设置了20万元的奖金池,一等奖3万元现金,共计会有12支队伍可以获得现金奖励。
同时大赛还有四大玩法,玩法一,新手训练营零基础参赛。选手可以免费参加智能预备赛、数据管理创新赛的新手训练营,技术大咖在线教学,零基础快速上手阿里云存储产品,轻松参赛,完成打卡任务即可领取免费试用,获得精美礼品;玩法二,多款云存储产品免费试用,阿里云存储为新用户免费提供对象存储、文件存储、混合云备份、日制服务、表格存储等适用,祝您快速完成产品入门和实际体验;
玩法三,邀请好友助力赢取万元好礼,可以邀请好友领取云存储产品的免费试用,当邀请人数达到相应数量时,即可轻松领取包括天猫超市、购物卡、switch游戏机、GBL蓝牙降噪耳机等多重合好礼。
玩法四,云起实验室。云起实验室是由阿里云提供的零门槛云上实践平台,可以免费体验云产品的功能和场景。
本次大赛选手提交的创新应用方案将有机会沉淀在运气实验室,成为大家的后续学习对象。欢迎大家扫描左边二维码免费报名参赛,大家还可以扫描右边的二维码加入大赛交流群,了解赛事的最新资讯。
大家也不用担心大赛的难度,阿里云特意为大家准备了相应的新手训练营课程,帮助大家参赛。
二、学习智能运维赛道的课程
随着云原生时代的到来,AIOps与可观测平台已经成为了企业关注的重点。接下来将介绍如何通过全链路的可观测数据融合、数据应用、大数据和AI的技术,并且结合各类的开源组件和开发框架等上下游的生态对接、来帮助的企业运维平台,成为创新生产力的工具。
1.为什么需要构建下一代的可观测的数据平台
从运维平台来看,数字化带来的趋势如何为客户带来极致的体验是最关键的竞争力。每1秒的延时增加都会带来7%的用户流失。同时,数字化也在推动各行各业的一些业务创新,发布的节奏也越来越快,混合云,云原生,容器化,微服务和DevOps这些基础设施与架构也在不断的革新,运维数据和业务数据的些多样性也在不断的提升。随着IT系统从单体式架构向分布式微服务云原生转变,传统的运维的方案面临着巨大的挑战。
例如:数据孤岛,不同的数据在各种系统的数据孤岛中产生;运维工具碎片化,通过行业的一些报告发现,搭建运维平台通常需要九种以上的工具,并且还需要在多种工具之间来回切换;告警时间过载,这意味着,企业每个月要面临上万条告警,导致重要的信息会被页面。如何能够快速的发现问题,定位问题,也是用户体验方面临的巨大挑战。
2. 解决方案
因此,需要构建下一代的可观测的数据平台分析解决方案。首先,数据要联合应用打通,将的Log,Metic和Trace这些数据做融合的关联分析;其次,需要更易使用。通过更加开放的生态和技术方案来融合、支撑的一些告警事件管理;降低噪声,从而提高的效率;最后,通过自动异常的检测,减少故障时间。基于以上的挑战和需求SLS的一些智能的解决方案就能够去满足用户的需求,来构建统一的可观测的数据分析平台。SLS为Log,Metical、Trace提供统一的存储与分析,为用户提供智能化的Ops平台的工具,以及一些开箱即用的应用。
3.SLS非常关键的核心的功能架构。
首先,SLS提供多维的数据采集与管道,强大的数据采集与分发基础能力提供一站式采集清洗入湖能力,采集端支持更多数据源,消费投递升级,支持更多目标源。
第二,SLS是统一的可观测数据平台存储,它支持了存储的分层,包括热存和冷存,也提供了标准型和查询型,满足用户对于查询不同场景的计算能力的需求。
第三,SLS提供了智能化运维的Ops的平台工具,来构建AIOps的智能巡检及告警的运维的横向的能力支撑各种各样的场景化的应用。
最后,上层还提供了各种xOps领域的场景化的应用,发挥可观测数据融合的优势,面向业务提供一些应用,提供场景Insight,包括ITOps 开发运维应用、CloudLens 云产品可观测应用、SecOps 安全运维应用与FinOps 成本分析应用。提供场景Insight,包括ITOps 开发运维应用、CloudLens 云产品可观测应用、SecOps 安全运维应用与FinOps 成本分析应用来共同构筑开放集成的日志服务、可观测数据分析平台的一些方案。
接下来将讲解其中几点:
第一,可观测数据统一的存储分析;
第二,智能化的Ops平台工具告警和智能检测。
首先是如何分析,因为看到在当今的种数字化的业务的迭代越来越快,多云架构和微服务架构带来的架构和迭代的灵活性,组件也越来越多。因此,需要管理庞大和复杂的IT的系统,在此过程当中需要去考虑怎么能够把数据平台不是传统的、独立的烟囱和孤岛。面对种复杂的IT系统的挑战,需要解决几个问题。
第一,工具碎品化。
在构建可观测数据分析系统时,往往会遇到工具碎片化。例如:不同的监控的指标,日志的数据的采集和存储都需要不同的工具,整体的方案的复杂性非常的高。
第二,接入与分析过程面临扩展、性能、不统一的问题。
这些数据不同流程的链接、可扩展能力、分析性能上如何提升,需要具备秒级大规模、实时的能力,从而判断与处理分析机器学习能力的应用。
面对系统需要监控的对象、分析的数据越来越多的情况下,我们怎么利用一些算法,降低复杂度、减少噪声,解决人工规则无法覆盖的问题,减少整个分析的过程。
SLS的可观测数据平台的设计中很重要的一点就是能够提供统一的、可观测存储。它可以去支持不同类型的种可观测数据,包括日志,指标等,都能够统一的囊括的SLS中。它可以兼容可观测的数据的开源的生态,客户就不需要去针对不同的可观测的数据去建设不同的存储系统,使用不同的方式和API去查询分析。在此过程当中,SLS能支持开放告警及一些alert信息接入,将云监控等数据完美的接入。这意味着,通过SLS提供各类的可观测数据的接入统一存储与关联分析,来支撑整个数据平台,打造关联融合分析的高效的融合分析,来帮助用户去排查效率,提升用户体验。接下来,如何解决不同系统当中产生的告警事件的统一管理与处理的一些问题。SLS发布了一站式的智能告警中,它是开放的智能中枢,不仅能够对接SLS各类数据产生的告警,也可以去对接阿里云上的其他系统触发的一些告警,以及客户自有系统的一些告警。告警中心可以提供全局的监控,这意味着多个告警源的全局监控。还可以告警降噪,包含告警的去重、合并、路由、抑制、静默等去提高处理效率。在动态分配中,可以提供多种条件的升级、分派,并且结合排班表,来完成告警的动态分配。
4.分享SLS的自适应的机器学习的异常检测
通过智能的异常检测可以发现隐患,避免问题最终演变成严重的事故。在此过程中,基于机器学习提高AIOps的能力,支撑客户构建智能运维的系统。SLS的智能巡检对组件、日志、指标和事件数据都可以进行覆盖。
因此,可以通过智能巡检发现隐患,解决一些在人工设置预制中没有办法覆盖的问题。因为在纯人工设置policy的规则时,会遇到很多的问题。比如监控的对象非常的复杂。人工设置会存在非常多的漏报和误报的问题,而采用SLS的智能巡检的优化方式,可以让客户通过巡检的结果的点击与处理反馈,模型就可以去自动的去适配客户的数据与场景。
SLS智能巡检内置了自适应的一些算法来支持不同的业务的一些特点的模型来提供反馈优化的能力,也可以根据运维的开发与检测异常反馈,进一步迭代算法,做进一步的优化。
以上关于SLS可观测数据分析平台的讲解。