
使用Terraform玩转SLS日志审计自动化部署
Terraform是一种开源工具,用于安全高效地预览,配置和管理云基础架构和资源。阿里云的terraform-provider-alicloud目前已经提供了超过 163 个 Resource 和 113 个 Data Source,覆盖计算,存储,网络,负载均衡,CDN,容器服务,中间件,访问控制,数据库等超过35款产品。 本文主要介绍如何使用Terraform自动化部署阿里云日志服务下的日志审计服务。
基于ECS实例RAM角色的SLS与Splunk集成方案
阿里云日志服务(SLS)通过提供一个Splunk插件(Add-on)实现SLS与Splunk的日志对接, 以便确保阿里云上的所有法规、审计、与其他相关日志能够导入到客户的安全运维中心(SOC)中。本文主要介绍如何在该Splunk Add-on中使用ECS实例RAM角色的鉴权方式,完成日志服务(SLS)到Splunk的日志投递过程。
SLS数据加工——动态解析与分发日志实战
阿里云日志服务提供可托管、可扩展、高可用的数据加工服务。数据加工服务可用于数据的规整、富化、流转、脱敏和过滤。本文为读者带来了数据加工动态解析与分发的最佳实践。

AI和大数据结合,智能运维平台助力流利说提升核心竞争力
简介:本文整理自数智创新行——智能运维专场(上海站),流利说最佳实践演讲:《基于SLS千万级在线教育平台统一监控运营实践》

一分钟完成访问数据的智能巡检告警
本篇文章主要介绍针对访问日志类型的数据如何使用SLS的智能巡检服务,通过简单的业务梳理和SQL的使用,就可以实现智能化的指标巡检。通过简单的告警配置,就可以让丰富的告警信息整体推送到您的钉钉机器人中,交互式的打标让您的巡检结果更满足您的业务场景。

Nginx Access Log 指标预聚合实践
Nginx 完成请求处理后会记录客户端请求信息到 access log。与业务请求数量成正比,access log 文件内容日积月累,占用大量磁盘的存储空间的同时,数据量增长也使分析 access log 变得困难。本文介绍一种预计算方案实现冷数据的存储优化以及分析效率提升。
日志服务SLS开放告警接入云监控
阿里云的云监控服务用于监控阿里云资源和互联网应用,包括阈值告警和事件告警两种模式,支持配置多种告警通知渠道。您可以将日志服务开放告警配置为其中一个通知渠道,从而由日志服务告警系统完成告警降噪、静默等处理,并且接入包括短信、电话、微信、钉钉、邮箱在内的10多种通知渠道。
开放告警接入Zabbix
Zabbix作为常用的开源监控系统,提供了丰富的告警规则用于系统监控,同时支持多种告警通知渠道。您可以将日志服务告警系统设为Zabbix的一个通知渠道,由日志服务告警系统完成告警降噪、通知等处理,并且通过包括短信、电话、微信、钉钉、邮箱在内的10多种通知渠道发送给用户。

Apache SkyWalking接入SLS Trace实践
Apache SkyWalking 是一款非常优秀的应用性能监控(APM)工具,对微服务、云原生和容器化应用提供自动化、高性能的监控方案。项目于 2015 年创建,并于 2017 年 12 月进入 Apache 孵化器,目前已经是Apache的顶级项目。SLS Trace已经支持Apache SkyWalking Agent端直接接入SLS Trace服务。运维人员可以直接将已经接入Apache SkyWalking的应用的Agent端直接接入到SLS Trace服务(下文会有详细说明)而不需要考虑规模和部署的问题。

SLS告警内置通知渠道最佳实践
为了实现全方位、多层次的告警通知,SLS告警内置了多种通知渠道,从触达强度、通知内容丰富程度等方面进行了全方位的覆盖。本文会详细介绍各个渠道的一些特点以及限制,并给出一般场景下的最佳实践。

阿里云日志服务NetCore SDK Quick Start
日志服务SLS是云原生观测与分析平台,为Log、Metric、Trace等数据提供大规模、低成本、实时的平台化服务。日志服务一站式提供数据采集、加工、查询与分析、可视化、告警、消费与投递等功能,全面提升您在研发、运维、运营、安全等场景的数字化能力。本文主要演示如何在VS2019中安装及使用SLS NetCore SDK。
AIOps:自适应机器学习异常检测
以下内容来自【2021阿里云开发者大会】中的内容分享,本次分享的题目是《AIOps:自适应机器学习异常检测》,该分享意在阐述机器学习算法在企业中的落地实践,通过算法和算力尽可能的提升企业运维人员的效率,为业务的快速发展保驾护航。
RDS审计日志采集方案升级--RDS审计中心发布
数据库是企业业务的数据核心,其安全方面的问题已经成为数据泄漏和被篡改的重要根源。因此,对数据库的操作行为尤其是全量 SQL 执行记录的审计日志,就显得尤为重要。

SLS新版告警入门——告警管理编排交互
在之前的告警策略和行动策略相关的文章中,我们可以看到,为了配置各种策略逻辑,使用的都是类似的交互方式,即基于可视化图的表单。本文主要来介绍一下策略图相关的交互和配置。

全新一代智能运维解决方案,让运维更简单、更智能
阿里云推出全新一代智能运维解决方案,利用大数据为企业日常运维服务,通过可观测数据融合、智能告警与响应中枢,结合机器学习的方法进一步解决自动化运维所未解决的问题,让运维更简单、更智能。

SLS新版告警入门——行动策略
SLS新版本告警中,将通知相关的配置统一收拢,从而形成行动策略。行动策略用来管理通知的发送,例如以什么渠道、发送给谁、发送什么内容以及发送通知的时间限制等。通过配置行动策略,可以实现通知的复用,比如多个告警使用相同的行动策略进行通知发送。
SLS新版告警自助排查系列之告警监控
在SLS告警中,告警监控通过对数据源的查询监控,然后产生告警,并将告警发送到告警管理,告警管理会对告警进行降噪处理包括合并抑制静默后,在将告警发送给行动管理,最终发送通知到用户配置的接收渠道。在整个过程中,告警监控作为告警的源头,决定着告警是否能准确的发出。在配置告警监控规则时,配置不当或者配置错误都会导致告警不能触发或者不是希望的触发。本文主要介绍在告警监控中如何进行自助排查问题。
SLS新版告警入门-统一的查询分析语法
SLS新版告警支持多种监控目标,如SLS的日志存储,时序存储;也支持对外部系统如Promethus,Grafana,Zabbix产生的告警进行管理;在对SLS的存储进行监控时,用户可以自定义告警监控规则或者使用内置的告警规则。自定义告警监控规则主要包括监控目标,触发条件,行动配置等。本文主要介绍在创建自定义告警规则时,如何使用统一的查询分析语法来查询并定义监控目标。

SLS新版本告警入门——用户、用户组及值班组
在之前的告警中,如果想要发送通知给某个用户,那么需要配置该用户的手机号或者邮箱。如果有多个告警都需要发送给同一个用户,就需要多次配置手机号和邮箱。假如告警要发给多个人,那么就要配置多个用户的手机号和邮箱。这就存在着诸多痛点。基于以上痛点,在新版本的告警中,加入了用户和用户组的管理,并且在此基础上添加了值班组,从而可以非常方便地进行用户的管理,还能够实现高级的值班功能。

运维更简单、更智能,让运维人不再 “拼命”
云原生智能运维解决方案,利用大数据为企业日常运维服务,通过可观测数据,融合智能告警与响应中枢,结合机器学习的方法进一步解决自动化运维所未解决的问题,让运维更简单、更智能。

SLS新版本告警入门——告警策略_抑制和静默
在告警管理的过程中,除了通过路由合并来进行降噪,减少通知次数之外,还有一些更加高级的场景,例如需要暂时不发送通知。这就是告警抑制和告警静默所提供的功能。
阿里云文件存储NAS生命周期管理新功能介绍
简介: 在2020年,阿里云文件存储通用型NAS(简称NAS)推出了新的低频介质(低频型)和生命周期管理功能。在新的一年,我们对生命周期管理功能进行持续迭代。新的生命周期管理支持SMB协议文件系统、低频文件查看以及取回低频文件至热介质。

SLS新版本告警入门——告警策略-路由合并(2)
本文主要介绍了SLS新版本告警中告警策略的路由合并功能,主要是对于路由合并规则各个参数功能和作用的详细介绍。并对动态告警策略以及如何在监控规则里配置告警策略和行动策略做了详细描述。

SLS新版本告警入门——告警策略-路由合并(1)
本文主要介绍SLS新版本告警中告警策略的路由合并概念及其基本功能。包括路由合并、告警指纹、合并集合以及使用告警策略进行数据隔离等功能。

SLS新版本告警入门——告警管理概述
日志服务支持为查询或分析结果设置告警。设置告警后,日志服务定期检查查询或分析结果,当检查结果满足预设条件时发送告警通知,实现实时的服务状态监控。在旧版本的告警中,告警规则以及通知的配置都很简单直观,但是也存在着一些痛点。为了解决上述种种存在的痛点,我们对SLS的告警功能进行了升级,提供了更加强大的功能。可以完美解决以上的一些痛点。
SLS新版告警入门-告警严重度
在日常的打日志过程中,我们经常会按照不同日志级别来打日志,在日志级别中经常可以看到Info,Warn,Error,Crtical等级别,一般来说,越严重的日志越值得关注,因为它可能意味着系统出现了严重的故障,导致不可用等行为。同样,在监控系统中,如果在监控某不同指标时,如果指标的值偏离了我们设定的阈值,会触发一条告警,这条告警也应该表明事件的严重程度,比如机器down机的问题要比CPU使用率超过70%的问题要更严重,同样,CPU使用率达到90%要比CPU达到75%的问题要严重。
SLS新版告警-告警属性及其应用
在配置告警的过程中,常常需要了解告警的上下文,告警来源,告警严重度等,这些都可以叫做告警的属性。可以对其进行告警的管理,SLS新版告警包括监控和告警管理部分,其中监控部分主要是用来产生告警,既可以使用自定义告警规则来产生告警,也允许用户使用外部监控系统(如Zabbix, Promethus,Grafana)来产生告警,对于各类的告警,SLS新版告警系统将这些告警的属性进行了统一和规范,基于这个规范就可以借助SLS新版告警的管理系统,来对告警进行统一的降噪处理,告警升级,分派通知等功能。
SLS新版告警入门——分组评估
介绍新版 SLS 告警中的分组评估功能,分组评估是告警监控规则中的一个参数。当告警监控系统对查询和分析结果进行计算时,可基于特定字段进行分组,每个分组单独评估触发条件并触发告警。即您可以使用一条告警监控规则同时监控多个目标,并对每个分组进行独立的告警管理和事件管理。
SLS智能告警-全局监控告警
SLS是一站式的云原生可观测分析平台,用户可以将Log, Metric, Trace数据接入到SLS;根据业务的需要,用户可能将数据存储在不同的账户、地域、Project下,在对数据进行监控分析时,如果只能对特定Project或者特定区域进行监控,往往会有一定的局限性,SLS智能告警可以提供跨Project,甚至跨地域,跨账号的监控,然后对告警进行统一降噪管理,通知管理等;实现对SLS资源的全局监控。 本文将介绍如何使用SLS智能告警来进行全局监控,介绍全局监控需要的查询的三种授权方式,并通过一个跨账号监控的例子来介绍如果进行全局监控。
SLS智能告警-访问控制与授权
在使用阿里云SLS时,如果使用主账号创建更新告警,监控自身账号下的资源时,不会遇到权限问题;在很多场景下,为了使权限职责更加清楚,用户在使用阿里云时往往不会直接使用主账号来进行日常操作,而是会创建不同的子账号,赋予不同的权限,比如子账号A用来管理ECS实例,账号B用来管理日志服务;甚至还可以更细粒度的进行控制,比如子账号a用来采集日志,子账号b用来创建监控告警。这些对资源的访问控制都可以使用阿里云的访问控制机制来实现。本文将介绍如何使用阿里云的访问控制来创建SLS新版告警规则。
Grafana接入SLS开放告警
Grafana是监控运维场景下常用的开源系统,它丰富易用的可视化界面极大的方便了开发运维的工作。但是另一方面,Grafana自带的告警功能较为简单,不能很好的满足日常需求。新版SLS告警提供了丰富易用的告警功能,能够很好的补足Grafana的告警功能,并且支持通过包括短信、电话、微信、钉钉、邮箱在内的10多种通知渠道发送给用户。
开放告警接入Prometheus
Prometheus是常用的开源监控告警系统,为开发运维人员提供了数据采集、查看、告警的一体化解决方案,但是其告警管理功能较为简单,不能很好的满足需求。SLS的开放告警功能,能够将Prometheus发出的告警消息收集到SLS中进行统一管理,并通过包括短信、电话、微信、钉钉、邮箱在内的10多种通知渠道发送给用户。

从运维和SRE角度看监控分析平台建设
运维和SRE团队,承载着重要的职责,其工作内容复杂而广泛,从应用部署、性能和可用性监控、告警、值班,到容量规划、业务支撑等都有涉及,随着云原生、容器化和微服务的快速发展,迭代节奏愈发加快,对于运维和SRE也提出了更多的挑战。
SLS新版告警入门-触发条件设置
告警监控规则根据评估表达式的执行结果来判断是否满足触发告警条件,以及评估动态告警严重度。您查询语句的执行结果将作为输入,集合操作结果的字段作为变量,当评估表达式条件为真且符合连续触发阈值配置时,则触发告警。
SLS新版告警入门-旧版告警升级
近期SLS发布了新版告警,新版本告警在升级原有功能的基础上,扩展了告警监控、告警管理、通知(行动)管理的能力,SLS新版告警还支持在控制台将旧版告警一键升级为新版告警。本文首先会介绍新版与旧版在架构、功能和配置上的区别,然后通过一个实例演示如果将旧版告警一键升级为新版告警。

如何构建一个拖垮整个公司的运维系统
人肉运维,不在 DevOps 中转型,就在自动化中消亡。云化时代的运维,需要的是高铁,而不是“跑的更快的马车”。6月25日,数智创新行上海站·智能运维专场,期待您的参与。
SLS新版告警入门-监控主机CPU异常
随着用户量的增加,后台服务经常需要部署在多台服务器或者集群中来提高性能和增强可用性,在提供服务的过程中,由于程序bug或者业务徒增导致CPU飙高,如果CPU持续飙高,可能会导致机器down机,对服务造成不可用。 本文以此为背景,在主机监控时序数据中,配置SLS告警,来监控主机CPU飙高,并且在CPU飙高时发出告警到钉钉机器人。
SLS Logstore模拟接入OSS访问日志和主机监控
在使用SLS的过程中,在试用一些功能时,还未接入正式的数据,往往不能很好的体验SLS功能,SLS提供了模拟接入的功能,可以对一些常见类型的日志进行模拟接入,接入后就可以看到一些mock的数据,本文介绍两种常见的模拟接入。
SLS新版告警入门-监控OSS访问日志
在业务中经常会有波峰波谷的现象,使用同一个监控阈值往往不能满足告警需求;基于SLS,可以使用日环比方式,配置SLS新版告警,来监控PV日环比是否有陡增或陡降,比如陡增10%或者陡降10%,会发出告警;本文以此为背景,来讲解如何配置告警并发出通知。
SLS新版告警-多数据源协同
阿里云SLS作为一站式的可观测性平台,用户将日志数据,时序数据,Trace数据都存储在SLS;SLS提供统一的查询分析语言,支持完整的SQL 92语法;SLS新版告警完整支持SLS的查询分析语法,基于此,可以配置常见的如关键词告警,同环比告警,网址错误监控,流量急跌或暴涨监控;在新版告警中,可以对多个数据源进行监控,并且支持多数据源的间的协同监控。支持常见的左联,右联,内联,外联,左斥,右斥等集合操作,可以使用在比如白名单,黑名单监控场景。
SLS新版告警-告警属性及其应用
在配置告警的过程中,常常需要了解告警的上下文,告警来源,告警严重度等,这些都可以叫做告警的属性。可以对其进行告警的管理,SLS新版告警包括监控和告警管理部分,其中监控部分主要是用来产生告警,既可以使用自定义告警规则来产生告警,也允许用户使用外部监控系统(如Zabbix, Promethus,Grafana)来产生告警,对于各类的告警,SLS新版告警系统将这些告警的属性进行了统一和规范,基于这个规范就可以借助SLS新版告警的管理系统,来对告警进行统一的降噪处理,告警升级,分派通知等功能。

基于 Scheduled SQL 对 VPC FlowLog 实现细粒度时间窗口分析
针对VPC FlowLog的五元组和捕获窗口信息,在分析时使用不同时间窗口精度,可能得到不一样的流量特征,本文介绍一种方法将原始采集日志的时间窗口做拆分,之后重新聚合为新的日志做分析,达到更细粒度的分析效果。

Scheduled SQL: SLS 大规模日志上的全局分析与调度
本文总结了大规模日志全局分析的需求,讨论SLS上现有的典型分析方案,并延伸到 SLS 原生数据处理方案,介绍 Schedueld SQL 功能与最佳实践。

云存储
阿里云存储基于飞天盘古2.0分布式存储系统,产品多种多样,充分满足用户数据存储和迁移上云需求。