使用SLS Trace实现Jaeger的高可靠部署方案
Jaeger的高可用最核心的部分是Jaeger后端(包括Collector、Kafka、Flink、DB、Query、UI),我们最好的方式是寻找一个能够兼容Jaeger的后端系统,提供高可靠、高性能的能力。而SLS最近发布的Trace服务恰巧可以完美解决这个问题。SLS最大的一个特点就是高性能、弹性和免运维,让用户轻松应对激增流量或者规模评估不准确的问题,SLS服务本身提供99.9%的可用性以及11个9的数据可靠性。
对 K8s 异常事件的定时 SQL 分析
使用 K8s 集群,我们关注业务、容器、集群三个层面稳定性,最基础的依赖是 K8s node 要稳定。阿里云容器服务(ACK)提供容器场景事件监控方案,通过 NPD(node-problem-detector)以及 kube-eventer 提供容器节点的事件采集、存储能力。本文介绍通过 Scheduled SQL 完成对 K8s 异常事件的定时分析及结果存储。
使用SLS告警为你的OSS保驾护航
SLS告警作为一站式运维告警平台,也为OSS的访问提供了定制化的告警规则,用户只需要一键开启,即可完成对OSS访问指标的监控,并可以在指标出现异常时及时收到告警。本文主要介绍如何使用在OSS访问日志上开启SLS告警及配置方法。
储留香:一个运维系统就是一个神经系统,我说的!
运维系统可以像神经系统一样,首先,做到数据的统一汇总;其次,可以对数据进行识别筛选输出有效信息;再次,可以预先感知到异常风险,并进行有效规避。而日志服务SLS凭借出色的数据统一采集、智能分析告警、风险预测等能力,已经成为企业智能运维场景下不可或缺的神经系统。
如何用阿里云实行全链路数据追踪
阿里云采用了日志服务,帮助畅捷通构建了用户体验感知、业务安全合规、用户业务链路追踪、成本预算的使用场景,实现了对用户、业务、成本、安全等方面的全维度感知,使得运维效率提升了30%。
释放Trace的价值-SLS OpenTelemetry新功能直击痛点
SLS在2021年4月份正式发布了对OpenTelemetry Trace 1.0版本的支持,完全兼容OpenTelemetry Trace1.0版本的所有字段,提供了Trace显示、分析、拓扑展示等功能。在功能发布后,众多客户开始接入SLS Trace并深度使用,其中对我们也提出来非常多的建议和需求。从中我们提取出了呼声最高的一些功能和优化点,加入到了SLS的Trace方案1.1版本中。
一分钟完成ECS机器数据的智能巡检告警
对于运维的日常工作来说,服务器监控是必须且最基础的一项内容。在企业基础设施运维过程中,管理员必须能够掌握所有服务器的运行状况,以便及时发现问题,尽可能减少故障的发生。本次主要介绍如何使用智能巡检,帮助您快速完成机器(ECS)相关指标的监控,降低您设置告警的复杂规则和冗余的设置。
微信也能看账单——SLS成本管家新增微信订阅渠道
阿里云用户使用云资源的同时,成本是个不容忽视的问题。阿里云的计费方式有按量付费和包年包月。对于按量付费方式,手工对账单进行统计分析不仅耗费时间和精力,准确性也没办法保证。 阿里云日志服务的成本管家功能很好的解决了这个问题,将用户从低效的账单获取和整理工作中解放出来,提高账单分析效率。
使用Terraform玩转SLS日志审计自动化部署
Terraform是一种开源工具,用于安全高效地预览,配置和管理云基础架构和资源。阿里云的terraform-provider-alicloud目前已经提供了超过 163 个 Resource 和 113 个 Data Source,覆盖计算,存储,网络,负载均衡,CDN,容器服务,中间件,访问控制,数据库等超过35款产品。 本文主要介绍如何使用Terraform自动化部署阿里云日志服务下的日志审计服务。
基于ECS实例RAM角色的SLS与Splunk集成方案
阿里云日志服务(SLS)通过提供一个Splunk插件(Add-on)实现SLS与Splunk的日志对接, 以便确保阿里云上的所有法规、审计、与其他相关日志能够导入到客户的安全运维中心(SOC)中。本文主要介绍如何在该Splunk Add-on中使用ECS实例RAM角色的鉴权方式,完成日志服务(SLS)到Splunk的日志投递过程。
SLS数据加工——动态解析与分发日志实战
阿里云日志服务提供可托管、可扩展、高可用的数据加工服务。数据加工服务可用于数据的规整、富化、流转、脱敏和过滤。本文为读者带来了数据加工动态解析与分发的最佳实践。
AI和大数据结合,智能运维平台助力流利说提升核心竞争力
简介:本文整理自数智创新行——智能运维专场(上海站),流利说最佳实践演讲:《基于SLS千万级在线教育平台统一监控运营实践》
一分钟完成访问数据的智能巡检告警
本篇文章主要介绍针对访问日志类型的数据如何使用SLS的智能巡检服务,通过简单的业务梳理和SQL的使用,就可以实现智能化的指标巡检。通过简单的告警配置,就可以让丰富的告警信息整体推送到您的钉钉机器人中,交互式的打标让您的巡检结果更满足您的业务场景。
Nginx Access Log 指标预聚合实践
Nginx 完成请求处理后会记录客户端请求信息到 access log。与业务请求数量成正比,access log 文件内容日积月累,占用大量磁盘的存储空间的同时,数据量增长也使分析 access log 变得困难。本文介绍一种预计算方案实现冷数据的存储优化以及分析效率提升。
日志服务SLS开放告警接入云监控
阿里云的云监控服务用于监控阿里云资源和互联网应用,包括阈值告警和事件告警两种模式,支持配置多种告警通知渠道。您可以将日志服务开放告警配置为其中一个通知渠道,从而由日志服务告警系统完成告警降噪、静默等处理,并且接入包括短信、电话、微信、钉钉、邮箱在内的10多种通知渠道。
开放告警接入Zabbix
Zabbix作为常用的开源监控系统,提供了丰富的告警规则用于系统监控,同时支持多种告警通知渠道。您可以将日志服务告警系统设为Zabbix的一个通知渠道,由日志服务告警系统完成告警降噪、通知等处理,并且通过包括短信、电话、微信、钉钉、邮箱在内的10多种通知渠道发送给用户。
Apache SkyWalking接入SLS Trace实践
Apache SkyWalking 是一款非常优秀的应用性能监控(APM)工具,对微服务、云原生和容器化应用提供自动化、高性能的监控方案。项目于 2015 年创建,并于 2017 年 12 月进入 Apache 孵化器,目前已经是Apache的顶级项目。SLS Trace已经支持Apache SkyWalking Agent端直接接入SLS Trace服务。运维人员可以直接将已经接入Apache SkyWalking的应用的Agent端直接接入到SLS Trace服务(下文会有详细说明)而不需要考虑规模和部署的问题。
SLS告警内置通知渠道最佳实践
为了实现全方位、多层次的告警通知,SLS告警内置了多种通知渠道,从触达强度、通知内容丰富程度等方面进行了全方位的覆盖。本文会详细介绍各个渠道的一些特点以及限制,并给出一般场景下的最佳实践。
阿里云日志服务NetCore SDK Quick Start
日志服务SLS是云原生观测与分析平台,为Log、Metric、Trace等数据提供大规模、低成本、实时的平台化服务。日志服务一站式提供数据采集、加工、查询与分析、可视化、告警、消费与投递等功能,全面提升您在研发、运维、运营、安全等场景的数字化能力。本文主要演示如何在VS2019中安装及使用SLS NetCore SDK。
AIOps:自适应机器学习异常检测
以下内容来自【2021阿里云开发者大会】中的内容分享,本次分享的题目是《AIOps:自适应机器学习异常检测》,该分享意在阐述机器学习算法在企业中的落地实践,通过算法和算力尽可能的提升企业运维人员的效率,为业务的快速发展保驾护航。
RDS审计日志采集方案升级--RDS审计中心发布
数据库是企业业务的数据核心,其安全方面的问题已经成为数据泄漏和被篡改的重要根源。因此,对数据库的操作行为尤其是全量 SQL 执行记录的审计日志,就显得尤为重要。
SLS新版告警入门——告警管理编排交互
在之前的告警策略和行动策略相关的文章中,我们可以看到,为了配置各种策略逻辑,使用的都是类似的交互方式,即基于可视化图的表单。本文主要来介绍一下策略图相关的交互和配置。
全新一代智能运维解决方案,让运维更简单、更智能
阿里云推出全新一代智能运维解决方案,利用大数据为企业日常运维服务,通过可观测数据融合、智能告警与响应中枢,结合机器学习的方法进一步解决自动化运维所未解决的问题,让运维更简单、更智能。
SLS新版告警入门——行动策略
SLS新版本告警中,将通知相关的配置统一收拢,从而形成行动策略。行动策略用来管理通知的发送,例如以什么渠道、发送给谁、发送什么内容以及发送通知的时间限制等。通过配置行动策略,可以实现通知的复用,比如多个告警使用相同的行动策略进行通知发送。
SLS新版告警自助排查系列之告警监控
在SLS告警中,告警监控通过对数据源的查询监控,然后产生告警,并将告警发送到告警管理,告警管理会对告警进行降噪处理包括合并抑制静默后,在将告警发送给行动管理,最终发送通知到用户配置的接收渠道。在整个过程中,告警监控作为告警的源头,决定着告警是否能准确的发出。在配置告警监控规则时,配置不当或者配置错误都会导致告警不能触发或者不是希望的触发。本文主要介绍在告警监控中如何进行自助排查问题。
SLS新版告警入门-统一的查询分析语法
SLS新版告警支持多种监控目标,如SLS的日志存储,时序存储;也支持对外部系统如Promethus,Grafana,Zabbix产生的告警进行管理;在对SLS的存储进行监控时,用户可以自定义告警监控规则或者使用内置的告警规则。自定义告警监控规则主要包括监控目标,触发条件,行动配置等。本文主要介绍在创建自定义告警规则时,如何使用统一的查询分析语法来查询并定义监控目标。
SLS新版本告警入门——用户、用户组及值班组
在之前的告警中,如果想要发送通知给某个用户,那么需要配置该用户的手机号或者邮箱。如果有多个告警都需要发送给同一个用户,就需要多次配置手机号和邮箱。假如告警要发给多个人,那么就要配置多个用户的手机号和邮箱。这就存在着诸多痛点。基于以上痛点,在新版本的告警中,加入了用户和用户组的管理,并且在此基础上添加了值班组,从而可以非常方便地进行用户的管理,还能够实现高级的值班功能。
运维更简单、更智能,让运维人不再 “拼命”
云原生智能运维解决方案,利用大数据为企业日常运维服务,通过可观测数据,融合智能告警与响应中枢,结合机器学习的方法进一步解决自动化运维所未解决的问题,让运维更简单、更智能。
SLS新版本告警入门——告警策略_抑制和静默
在告警管理的过程中,除了通过路由合并来进行降噪,减少通知次数之外,还有一些更加高级的场景,例如需要暂时不发送通知。这就是告警抑制和告警静默所提供的功能。
阿里云文件存储NAS生命周期管理新功能介绍
简介: 在2020年,阿里云文件存储通用型NAS(简称NAS)推出了新的低频介质(低频型)和生命周期管理功能。在新的一年,我们对生命周期管理功能进行持续迭代。新的生命周期管理支持SMB协议文件系统、低频文件查看以及取回低频文件至热介质。
SLS新版本告警入门——告警策略-路由合并(2)
本文主要介绍了SLS新版本告警中告警策略的路由合并功能,主要是对于路由合并规则各个参数功能和作用的详细介绍。并对动态告警策略以及如何在监控规则里配置告警策略和行动策略做了详细描述。
SLS新版本告警入门——告警策略-路由合并(1)
本文主要介绍SLS新版本告警中告警策略的路由合并概念及其基本功能。包括路由合并、告警指纹、合并集合以及使用告警策略进行数据隔离等功能。
SLS新版本告警入门——告警管理概述
日志服务支持为查询或分析结果设置告警。设置告警后,日志服务定期检查查询或分析结果,当检查结果满足预设条件时发送告警通知,实现实时的服务状态监控。在旧版本的告警中,告警规则以及通知的配置都很简单直观,但是也存在着一些痛点。为了解决上述种种存在的痛点,我们对SLS的告警功能进行了升级,提供了更加强大的功能。可以完美解决以上的一些痛点。
SLS新版告警入门-告警严重度
在日常的打日志过程中,我们经常会按照不同日志级别来打日志,在日志级别中经常可以看到Info,Warn,Error,Crtical等级别,一般来说,越严重的日志越值得关注,因为它可能意味着系统出现了严重的故障,导致不可用等行为。同样,在监控系统中,如果在监控某不同指标时,如果指标的值偏离了我们设定的阈值,会触发一条告警,这条告警也应该表明事件的严重程度,比如机器down机的问题要比CPU使用率超过70%的问题要更严重,同样,CPU使用率达到90%要比CPU达到75%的问题要严重。
SLS新版告警-告警属性及其应用
在配置告警的过程中,常常需要了解告警的上下文,告警来源,告警严重度等,这些都可以叫做告警的属性。可以对其进行告警的管理,SLS新版告警包括监控和告警管理部分,其中监控部分主要是用来产生告警,既可以使用自定义告警规则来产生告警,也允许用户使用外部监控系统(如Zabbix, Promethus,Grafana)来产生告警,对于各类的告警,SLS新版告警系统将这些告警的属性进行了统一和规范,基于这个规范就可以借助SLS新版告警的管理系统,来对告警进行统一的降噪处理,告警升级,分派通知等功能。
SLS新版告警入门——分组评估
介绍新版 SLS 告警中的分组评估功能,分组评估是告警监控规则中的一个参数。当告警监控系统对查询和分析结果进行计算时,可基于特定字段进行分组,每个分组单独评估触发条件并触发告警。即您可以使用一条告警监控规则同时监控多个目标,并对每个分组进行独立的告警管理和事件管理。
SLS智能告警-全局监控告警
SLS是一站式的云原生可观测分析平台,用户可以将Log, Metric, Trace数据接入到SLS;根据业务的需要,用户可能将数据存储在不同的账户、地域、Project下,在对数据进行监控分析时,如果只能对特定Project或者特定区域进行监控,往往会有一定的局限性,SLS智能告警可以提供跨Project,甚至跨地域,跨账号的监控,然后对告警进行统一降噪管理,通知管理等;实现对SLS资源的全局监控。 本文将介绍如何使用SLS智能告警来进行全局监控,介绍全局监控需要的查询的三种授权方式,并通过一个跨账号监控的例子来介绍如果进行全局监控。
SLS智能告警-访问控制与授权
在使用阿里云SLS时,如果使用主账号创建更新告警,监控自身账号下的资源时,不会遇到权限问题;在很多场景下,为了使权限职责更加清楚,用户在使用阿里云时往往不会直接使用主账号来进行日常操作,而是会创建不同的子账号,赋予不同的权限,比如子账号A用来管理ECS实例,账号B用来管理日志服务;甚至还可以更细粒度的进行控制,比如子账号a用来采集日志,子账号b用来创建监控告警。这些对资源的访问控制都可以使用阿里云的访问控制机制来实现。本文将介绍如何使用阿里云的访问控制来创建SLS新版告警规则。
Grafana接入SLS开放告警
Grafana是监控运维场景下常用的开源系统,它丰富易用的可视化界面极大的方便了开发运维的工作。但是另一方面,Grafana自带的告警功能较为简单,不能很好的满足日常需求。新版SLS告警提供了丰富易用的告警功能,能够很好的补足Grafana的告警功能,并且支持通过包括短信、电话、微信、钉钉、邮箱在内的10多种通知渠道发送给用户。
开放告警接入Prometheus
Prometheus是常用的开源监控告警系统,为开发运维人员提供了数据采集、查看、告警的一体化解决方案,但是其告警管理功能较为简单,不能很好的满足需求。SLS的开放告警功能,能够将Prometheus发出的告警消息收集到SLS中进行统一管理,并通过包括短信、电话、微信、钉钉、邮箱在内的10多种通知渠道发送给用户。
云存储
阿里云存储基于飞天盘古2.0分布式存储系统,产品多种多样,充分满足用户数据存储和迁移上云需求。