暂无个人介绍
netshoot介绍netshoot是一款开源的容器网络诊断工具,本质上是一个容器,里面默认安装了一些常用网络诊断工具,如tcpdump、netstat等,被称为网络排障瑞士军刀容器。netshoot众所周知,容器下网络空间是相互隔离的,与宿主机的网络空间也是隔离的,往往需要通过工具进入容器空间排查...
本文由日志关键词告警出发,介绍了使用SLS进行关键词监控告警配置,并且介绍了几种常见的配置方法,可以覆盖关键词监控的大部分场景。
本文介绍一种使用K8s挂载PVC日志采集时的轻量级部署方式。
本文主要介绍了SLS告警管理中心的业务概念和功能。
本文主要介绍一种使用函数计算(FC)通过Syslog协议投递日志的方法。
Syslog是一个常见的日志通道,几乎所有的SIEM(例如IBM Qradar, HP Arcsight)都支持通过Syslog渠道接收日志。本文主要介绍如何通过Syslog将日志服务中的日志投递到SIEM。
本文主要介绍如何使用Logtail来采集MQTT协议的数据。
本文主要介绍使用日志服务借助开源工具来搭建一套轻量级低成本的数据库审计方案。
本文为您介绍如何使用日志服务来实现MySQL数据库入湖OSS。
本文主要介绍如何使用CloudLens for SLS定位和解决iLogtail日常使用中的常见问题之一:包括STAT_LIMIT_ALARM, DIR_EXCEED_LIMIT_ALARM等诊断错误的文件/目录数超限问题,。
本文主要介绍使用Terraform来操作SLS告警监控,告警管理。
从源码角度分析Velox做序列化和反序列化的过程
velox是Meta开源的高性能的C++计算引擎,本文主要来调研下其表达式计算的实现原理。
阿里云日志服务作为云原生可观测与分析平台。提供了一站式的数据采集、加工、查询分析、可视化、告警、消费与投递等功能。全面提升用户的研发、运维、运营、安全场景的数字化能力。 日志服务平台作为可观测性平台提供了数据导入、数据加工、聚集加工、告警、智能巡检、导出等功能,这些功能在日志服务被称为任务,并且具有大规模的应用,接下来主要介绍下这些任务的调度框架的设计与实践。
PostgreSQL是一款免费的对象-关系数据服务器,在互联网和物联网领域都有广泛的应用场景,PostgreSQL也自称是最强大的开源关系型数据库系统,SLS也在近期上线了PostgreSQL数据源导入功能。本文将介绍如何把PostgreSQL的数据导入SLS,并且从可观测性的角度来介绍下非业务类数据导入的场景。
MySQL Binlog记录了MySQL的变更日志,业界也有一些方案来同步Binlog的数据,如Canal、MaxWell、DTS等。不同的工具可以实现不同的目标,iLogtail也提供了便捷的Binlog同步功能,iLogtail采集到Binlog后,可以将结果输出到各类flusher,本文以采集到Kafka为例进行介绍。
MQTT是一个为IoT设计的消息协议,是一种轻量级的基于Pub/Sub模式的通信协议,支持物联网设备与服务器之间的双向通信。广泛应用于自动驾驶、智能家居、制造业、电信等领域。 本文主要介绍如何使用日志服务Logtail作为订阅方来采集基于MQTT协议的消息。并将消息内容采集到日志服务的Logstore。
本文提供一种相对Sidecar部署更轻量级的采集方式,只需要部署少量的Logtail容器,即可采集不同业务容器的日志。
Terraform是有HashiCorp公司开源的IT基础架构的自动化编排工具,“Write,Plan and Create Infrastructure as Code”,Terraform的命令行接口(CLI)提供了一种简单的机制,用于将配置文件部署到阿里云或者其他任意支持的云上,并对其进行版本控制。 SLS告警告警是一站式告警监控、降噪、事务管理、通知分派的智能运维平台。包含日志/时序存储、告警监控、告警管理、通知管理等模块;强大的功能当然也有自动化配置的需求,本文将介绍如何使用Terraform进行简单的配置,即可完成在无界面的告警配置。
通用数据库审计是日志服务提供的一种轻量级、低成本数据库安全方案,在之前的文章《自建数据库没有审计方案?试试这套轻量级低成本方案》中介绍了通过部署Logtail和Packetbeat在应用服务器或者数据库服务器上的方法抓取数据库操作行为流量,从而实现数据库审计数据的采集。日志服务提供了开箱即用的审计报表和告警配置。 随着云原生技术的成熟,越来越多的应用部署在云原生环境,云原生环境的动态及灵活性给抓包工具带来了一些困难,本文主要介绍在K8s环境下如何部署这套轻量级、低成本审计方案。
日志服务(SLS)是云原生观测分析平台,为Log/Metric/Trace等数据提供大规模、低成本、实时平台化服务。一站式提供数据采集、加工、分析、告警可视化与投递功能。阿里云提供了企业级的数据湖解决方案,存储层基于阿里云对象存储OSS构建。日志服务支持开箱即用的OSS投递入湖功能,实现数据的端到端的入湖。 本文主要介绍如何借助日志服务将关系型数据库MySQL数据入湖和实践,并介绍数据在入湖之前可以日志服务可以提供哪些开箱即用的功能。
数据库同步是一个比较常见的需求,业务数据一般存储在一致性要求比较高的OLTP数据库中,在分析场景中往往需要OLAP数据库或者比较火的数据湖方案;CDC是数据库同步较为流行的方案,全称是Change Data Capture,主要用于捕捉数据库中变化的数据,然后根据变化的数据写入不同的目标存储。接下来是一些数据库CDC方案的调研及原理探讨,调研方案基于MySQL数据库。
Prometheus作为一个开源的云原生监控系统,具有很广泛的应用场景,通过各种Exporter收集各类设备,应用的指标,将各类指标抽象为时序数据,在Prometheus上可以使用PromQL进行高效的指标查询和分析。SLS告警是云上的一站式告警监控运维平台,支持各种Ops场景。SLS告警系统主要包括指标采集,监控系统,告警管理,通知管理等子系统。本文介绍如何将Prometheus告警无缝转换为SLS告警,并使用SLS告警的管理功能。
在数据安全的重要性日益突出的今天,数据库审计是数据安全的重要组成部分。在数据库审计的过程中往往需要关注数据库操作行为和性能数据:需要知道数据库来源IP,数据库服务器IP/端口,数据库登录用户,操作数据库名称,表名称,SQL语句,执行时间和返回数据条数等。这些数据的获取在数据库内核实现无疑是最佳的方式,但是并非所有的数据库都支持审计插件。几乎所有的数据库都是C/S模式,客户端与数据库通过网络协议沟通,数据库的协议大部分也是公开的,所以一种更通用的数据库审计数据采集的方案,应该是通过“外围”的抓包方案,具体是通过分析网络协议来采集数据库的行为数据。
K8S事件中心是SLS的日志应用之一,主要记录了集群的状态变更,包括创建Pod、运行Pod、删除Pod、组件异常等。K8S事件中心实时收集K8S中的所有事件并提供存储、查询、分析、可视化与告警能力。K8s事件中心默认也会提供仪表盘和告警,本文主要介绍下如何在ACK控制台和SLS控制台管理K8s事件中心的告警及其区别和使用场景。
在互联网,云计算,大数据快速发展的背景下,数据的规模也有了前所未有的增长,数据库在企业数据中几乎占有着核心地位。同时SQL注入,敏感操作,不规范使用等问题也一直伴随着数据库的使用,数据库安全也一直的数据库管理的重要工作,主要包括数据库漏扫,数据库加密,数据库防火墙,数据库脱敏,数据库安全审计等领域,本文将从数据库审计角度来介绍数据库审计的概念及审计数据的采集方案。
SLS发布了一款日志应用:告警管理中心;告警管理中心是一套以业务为中心告警管理运维平台,企业可以将同时将已有的监控告警平台如Zabbix,Prometheus,Datadog等产生的告警和SLS上的Project/Logstore等资源产生的告警添加到告警运维运维中心进行统一的告警管理和通知配置,将相关业务的告警收敛到一个地方进行运维管理,可以有效的提高运维效率。
MySQL是最流行的数据库之一,在大多系统的后端的存储都有MySQL的身影,MySQL运行的是否健康,直接影响着整个系统的运行,数据库的瓶颈往往也是整个系统的瓶颈,其重要性不言而喻,所以对于MySQL的监控必不可少,及时发现MySQL运行中的异常,可以有效提高系统的可用性和用户体验。 本文主要介绍下MySQL如何做监控,以及对Datadog的Database Monitoring的一些简单调研。
随着微服务的流行,微服务的架构也在不断的发展演进,Spring Cloud 与 Dubbo为代表的微服务开发框架也得到了普及和落地;在云原生时代,无侵入的服务网格(Service Mesh)开始走向成熟,相对于传统微服务架构,服务网格具有可观察性、流量控制、安全性三大优势。服务网格将之前服务治理中的复杂性从应用中分离出来,将这些复杂性放到了服务代理中,包括流量控制,断路,服务发现,安全性,可观测性等;开发时应用只需要关心业务功能实现,让责任划分变得更加清楚。
监控系统一般包括监控目标(监控实体),监控条件,告警通知,自动修复等系模块,SLS作为云原生观测与分析平台,为Log、Metric、Trace等数据提供大规模、低成本、实时的平台化服务;SLS也提供了丰富的监控告警功能,可以针对在日志/时序/Trace数据中进行配置异常告警,比如在Nginx日志中500错误过多,主机时序数据中CPU超过90%需要告警,在告警发出时,往往需要对问题发生的原因进行追溯,需要知道哪些实体在出现了异常,比如哪个域名500错误过多,哪台主机CPU过高等。本文将介绍通过SLS告警监控中的分组评估功能找出异常的实体。
SLS告警支持丰富的告警管理功能,例如合并抑制静默等功能,跟SLS旧版告警相比增加了很多告警降噪抑制的功能,和用户管理,值班组和可定制复用的内容模板功能。在使用的过程中,因为增加了告警的降噪功能,从告警产生到发送通知这个过程增加了一个告警降噪的过程;因为降噪机制的存在,可能会出现告警触发但不一定会立即发出通知的情况。了解SLS告警通知时机将有助于理解这些情况。
除了在SLS控制台创建告警监控以外,SLS的SDK也提供了对告警的管理功能,其中主要包括了初始化告警资源,告警监控规则的增删改查,告警资源的增删改查等功能。
本文主要介绍一种免运维,高性能,支持灵活配置的方案,使用SLS接入日志和告警。
在微服务架构流行的背景下,大部分的App,网站等的后台大都是集群部署架构,很少有单机部署,在集群部署的情况下一个服务请求链路,往往会经过一个或多个负载均衡然后到真正的服务器节点;后台服务集群化使服务拥有了高可用的能力,一台服务器挂掉,流量会自动转发到其他健康的服务器;但是作为后台开发运维人员,还需要关注是哪些节点的服务挂掉了。本文介绍一种通过日志分析来发现节点服务不可用并进行告警的方法。
SLS告警作为一站式运维告警平台,也为OSS的访问提供了定制化的告警规则,用户只需要一键开启,即可完成对OSS访问指标的监控,并可以在指标出现异常时及时收到告警。本文主要介绍如何使用在OSS访问日志上开启SLS告警及配置方法。
在SLS告警中,告警监控通过对数据源的查询监控,然后产生告警,并将告警发送到告警管理,告警管理会对告警进行降噪处理包括合并抑制静默后,在将告警发送给行动管理,最终发送通知到用户配置的接收渠道。在整个过程中,告警监控作为告警的源头,决定着告警是否能准确的发出。在配置告警监控规则时,配置不当或者配置错误都会导致告警不能触发或者不是希望的触发。本文主要介绍在告警监控中如何进行自助排查问题。
SLS新版告警支持多种监控目标,如SLS的日志存储,时序存储;也支持对外部系统如Promethus,Grafana,Zabbix产生的告警进行管理;在对SLS的存储进行监控时,用户可以自定义告警监控规则或者使用内置的告警规则。自定义告警监控规则主要包括监控目标,触发条件,行动配置等。本文主要介绍在创建自定义告警规则时,如何使用统一的查询分析语法来查询并定义监控目标。
在日常的打日志过程中,我们经常会按照不同日志级别来打日志,在日志级别中经常可以看到Info,Warn,Error,Crtical等级别,一般来说,越严重的日志越值得关注,因为它可能意味着系统出现了严重的故障,导致不可用等行为。同样,在监控系统中,如果在监控某不同指标时,如果指标的值偏离了我们设定的阈值,会触发一条告警,这条告警也应该表明事件的严重程度,比如机器down机的问题要比CPU使用率超过70%的问题要更严重,同样,CPU使用率达到90%要比CPU达到75%的问题要严重。
在配置告警的过程中,常常需要了解告警的上下文,告警来源,告警严重度等,这些都可以叫做告警的属性。可以对其进行告警的管理,SLS新版告警包括监控和告警管理部分,其中监控部分主要是用来产生告警,既可以使用自定义告警规则来产生告警,也允许用户使用外部监控系统(如Zabbix, Promethus,Grafana)来产生告警,对于各类的告警,SLS新版告警系统将这些告警的属性进行了统一和规范,基于这个规范就可以借助SLS新版告警的管理系统,来对告警进行统一的降噪处理,告警升级,分派通知等功能。
SLS是一站式的云原生可观测分析平台,用户可以将Log, Metric, Trace数据接入到SLS;根据业务的需要,用户可能将数据存储在不同的账户、地域、Project下,在对数据进行监控分析时,如果只能对特定Project或者特定区域进行监控,往往会有一定的局限性,SLS智能告警可以提供跨Project,甚至跨地域,跨账号的监控,然后对告警进行统一降噪管理,通知管理等;实现对SLS资源的全局监控。 本文将介绍如何使用SLS智能告警来进行全局监控,介绍全局监控需要的查询的三种授权方式,并通过一个跨账号监控的例子来介绍如果进行全局监控。
在使用阿里云SLS时,如果使用主账号创建更新告警,监控自身账号下的资源时,不会遇到权限问题;在很多场景下,为了使权限职责更加清楚,用户在使用阿里云时往往不会直接使用主账号来进行日常操作,而是会创建不同的子账号,赋予不同的权限,比如子账号A用来管理ECS实例,账号B用来管理日志服务;甚至还可以更细粒度的进行控制,比如子账号a用来采集日志,子账号b用来创建监控告警。这些对资源的访问控制都可以使用阿里云的访问控制机制来实现。本文将介绍如何使用阿里云的访问控制来创建SLS新版告警规则。
告警监控规则根据评估表达式的执行结果来判断是否满足触发告警条件,以及评估动态告警严重度。您查询语句的执行结果将作为输入,集合操作结果的字段作为变量,当评估表达式条件为真且符合连续触发阈值配置时,则触发告警。
近期SLS发布了新版告警,新版本告警在升级原有功能的基础上,扩展了告警监控、告警管理、通知(行动)管理的能力,SLS新版告警还支持在控制台将旧版告警一键升级为新版告警。本文首先会介绍新版与旧版在架构、功能和配置上的区别,然后通过一个实例演示如果将旧版告警一键升级为新版告警。
随着用户量的增加,后台服务经常需要部署在多台服务器或者集群中来提高性能和增强可用性,在提供服务的过程中,由于程序bug或者业务徒增导致CPU飙高,如果CPU持续飙高,可能会导致机器down机,对服务造成不可用。 本文以此为背景,在主机监控时序数据中,配置SLS告警,来监控主机CPU飙高,并且在CPU飙高时发出告警到钉钉机器人。
在使用SLS的过程中,在试用一些功能时,还未接入正式的数据,往往不能很好的体验SLS功能,SLS提供了模拟接入的功能,可以对一些常见类型的日志进行模拟接入,接入后就可以看到一些mock的数据,本文介绍两种常见的模拟接入。
在业务中经常会有波峰波谷的现象,使用同一个监控阈值往往不能满足告警需求;基于SLS,可以使用日环比方式,配置SLS新版告警,来监控PV日环比是否有陡增或陡降,比如陡增10%或者陡降10%,会发出告警;本文以此为背景,来讲解如何配置告警并发出通知。
阿里云SLS作为一站式的可观测性平台,用户将日志数据,时序数据,Trace数据都存储在SLS;SLS提供统一的查询分析语言,支持完整的SQL 92语法;SLS新版告警完整支持SLS的查询分析语法,基于此,可以配置常见的如关键词告警,同环比告警,网址错误监控,流量急跌或暴涨监控;在新版告警中,可以对多个数据源进行监控,并且支持多数据源的间的协同监控。支持常见的左联,右联,内联,外联,左斥,右斥等集合操作,可以使用在比如白名单,黑名单监控场景。
在配置告警的过程中,常常需要了解告警的上下文,告警来源,告警严重度等,这些都可以叫做告警的属性。可以对其进行告警的管理,SLS新版告警包括监控和告警管理部分,其中监控部分主要是用来产生告警,既可以使用自定义告警规则来产生告警,也允许用户使用外部监控系统(如Zabbix, Promethus,Grafana)来产生告警,对于各类的告警,SLS新版告警系统将这些告警的属性进行了统一和规范,基于这个规范就可以借助SLS新版告警的管理系统,来对告警进行统一的降噪处理,告警升级,分派通知等功能。