一文详解K8s环境下Job类日志采集方案
K8s丰富的controller为分布式任务编排提供了极大的便利,然而任务的时长可能很短(如定时清理数据的任务),甚至有些任务因为一启动就运行失败出现秒退的情况,这给采集任务日志带来了很大的挑战。本文将基于高性能轻量级可观测采集器iLogtail探讨Job日志的多种采集方案,分析这些方案在不同场景下对日志采集所能做到稳定性保证以及方案优化空间。
2022年AIOps热身赛数据可视化详解
本次介绍2022年AIOps国际挑战赛--热身赛数据的可视化详解,希望可以更好的帮助选手使用SLS平台进行赛题数据的理解。接下来主要介绍下,如何不写一行代码就可以在SLS平台上实现数据的可视化部分。我们提供的DEMO已经同步发不到网上(https://sls.aliyun.com/),各位可以去查阅。
阿里云日志服务 SLS 全景体验
阿里云日志服务 SLS 不只是“日志储存”,更是一个一站式智能运维方案、可观测平台。我们从“客户需要的数据如何获取”,发展为“客户的数据如何使用”,再过渡到“如何帮助客户用好数据,产生更大价值”。
iLogtail使用入门-iLogtail本地配置模式部署(For Kafka Flusher)
iLogtail使用入门-iLogtail本地配置模式部署(For Kafka Flusher)
在文件存储HDFS版上使用 CDH6
本文档介绍如何将CDH6中本地HDFS数据迁移到文件存储HDFS版,并配置CDH上的HDFS服务、Hive服务、Spark服务、HBase服务使用文件存储HDFS版,实现存储计算分离。
文件存储HDFS版和对象存储OSS双向数据迁移
本文档介绍文件存储HDFS版和对象存储OSS之间的数据迁移过程。您可以将文件存储HDFS版数据迁移到对象存储OSS,也可以将对象存储OSS的数据迁移到文件存储HDFS版上。
基于访问日志实现OSS监控
对象存储OSS是阿里云提供的云存储服务,能够以低成本为用户提供高可靠性的海量数据存储服务。作为基础服务,用户需要时刻关注OSS的使用状况,检测异常状态,从而及时作出响应。
使用SDK管理SLS告警-以Go为例
除了在SLS控制台创建告警监控以外,SLS的SDK也提供了对告警的管理功能,其中主要包括了初始化告警资源,告警监控规则的增删改查,告警资源的增删改查等功能。
5分钟搞定Loki告警多渠道接入
Loki是受Prometheus启发的水平可扩展、高可用、多租户日志聚合系统。用户既可以将Loki告警直接接入SLS开放告警,也可以先将Loki接入Grafana或Alert Manager,再借助Grafana或Alert Manager实现Loki间接接入SLS开放告警。
使用SLS告警为你的OSS保驾护航
SLS告警作为一站式运维告警平台,也为OSS的访问提供了定制化的告警规则,用户只需要一键开启,即可完成对OSS访问指标的监控,并可以在指标出现异常时及时收到告警。本文主要介绍如何使用在OSS访问日志上开启SLS告警及配置方法。
一分钟完成ECS机器数据的智能巡检告警
对于运维的日常工作来说,服务器监控是必须且最基础的一项内容。在企业基础设施运维过程中,管理员必须能够掌握所有服务器的运行状况,以便及时发现问题,尽可能减少故障的发生。本次主要介绍如何使用智能巡检,帮助您快速完成机器(ECS)相关指标的监控,降低您设置告警的复杂规则和冗余的设置。
日志服务SLS开放告警接入云监控
阿里云的云监控服务用于监控阿里云资源和互联网应用,包括阈值告警和事件告警两种模式,支持配置多种告警通知渠道。您可以将日志服务开放告警配置为其中一个通知渠道,从而由日志服务告警系统完成告警降噪、静默等处理,并且接入包括短信、电话、微信、钉钉、邮箱在内的10多种通知渠道。
阿里云日志服务NetCore SDK Quick Start
日志服务SLS是云原生观测与分析平台,为Log、Metric、Trace等数据提供大规模、低成本、实时的平台化服务。日志服务一站式提供数据采集、加工、查询与分析、可视化、告警、消费与投递等功能,全面提升您在研发、运维、运营、安全等场景的数字化能力。本文主要演示如何在VS2019中安装及使用SLS NetCore SDK。
SLS新版告警入门——行动策略
SLS新版本告警中,将通知相关的配置统一收拢,从而形成行动策略。行动策略用来管理通知的发送,例如以什么渠道、发送给谁、发送什么内容以及发送通知的时间限制等。通过配置行动策略,可以实现通知的复用,比如多个告警使用相同的行动策略进行通知发送。
【vSAN分布式存储服务器数据恢复】VMware vSphere vSAN ESXi超融合HCI分布式存储数据恢复案例
近期,我司处理了一个由10台华为OceanStor存储组成的vSAN超融合架构,其中一台存储闪存盘出现故障,用户取下后用新的闪存盘代替,然后对该闪存盘所在的磁盘组进行重建,导致集群中一台使用0置备策略的虚拟机数据丢失。
表格存储 Tablestore 十年发展总结
这篇文章接下来会先整体介绍下表格存储 Tablestore,之后会分享下在技术层面产品这几年的功能演进、技术架构演进以及稳定性优化相关的工作,以及在业务层面我们定义的核心应用场景和一些典型案例。
聊聊日志硬扫描,阿里 Log Scan 的设计与实践
SLS 新推出 Scan 功能,让未索引的字段也支持搜索(硬扫描模式),节省全量索引产生的构建和存储费用,同时 Scan 的运行时计算模式对于杂乱结构的日志数据有更好的适配,帮助企业客户实现数字化增效、IT 支出降本的目标。
[SIGMOD 21 学习] 《JSON Tiles》解读: 半结构化 JSON 存算优化
本文是对 SIGMOD 2021 上《JSON Tiles: Fast Analytics on Semi-Structured Data》的学习总结,有错误之处欢迎交流。
Alibaba Cloud Lens 云产品可观测平台
Alibaba Cloud Lens 作为云产品可观测平台,可以从成本、性能、安全、数据保护、稳定性、访问分析六个纬度,提供对存储类、网络类、数据库类等云产品的精细化运维辅助分析能力。让企业在保障业务敏捷性的前提下,低门槛实现对云产品的可观测。
使用Terraform玩转SLS告警
Terraform是有HashiCorp公司开源的IT基础架构的自动化编排工具,“Write,Plan and Create Infrastructure as Code”,Terraform的命令行接口(CLI)提供了一种简单的机制,用于将配置文件部署到阿里云或者其他任意支持的云上,并对其进行版本控制。 SLS告警告警是一站式告警监控、降噪、事务管理、通知分派的智能运维平台。包含日志/时序存储、告警监控、告警管理、通知管理等模块;强大的功能当然也有自动化配置的需求,本文将介绍如何使用Terraform进行简单的配置,即可完成在无界面的告警配置。
顺滑迁移Prometheus告警到SLS告警
Prometheus作为一个开源的云原生监控系统,具有很广泛的应用场景,通过各种Exporter收集各类设备,应用的指标,将各类指标抽象为时序数据,在Prometheus上可以使用PromQL进行高效的指标查询和分析。SLS告警是云上的一站式告警监控运维平台,支持各种Ops场景。SLS告警系统主要包括指标采集,监控系统,告警管理,通知管理等子系统。本文介绍如何将Prometheus告警无缝转换为SLS告警,并使用SLS告警的管理功能。
SLS告警最佳实践—— K8s事件中心告警管理
K8S事件中心是SLS的日志应用之一,主要记录了集群的状态变更,包括创建Pod、运行Pod、删除Pod、组件异常等。K8S事件中心实时收集K8S中的所有事件并提供存储、查询、分析、可视化与告警能力。K8s事件中心默认也会提供仪表盘和告警,本文主要介绍下如何在ACK控制台和SLS控制台管理K8s事件中心的告警及其区别和使用场景。
iLogtail使用入门-主机环境日志采集到SLS
iLogtail是阿里云中简单日志服务又名“SLS”的采集部分。 它用于收集遥测数据,例如日志、跟踪和指标,目前已经正是开源(https://github.com/alibaba/ilogtail)。本文通过介绍ilogtail如何在主机环境进行安装、配置、使用的最简流程,帮助用户使用预编译版本快速上手ilogtail日志采集。
Log4j漏洞不仅仅是修复,更需要构建有效预警机制
软件的漏洞有时不可避免,根据Gartner的相关统计,到 2025 年,30% 的关键信息基础设施组织将遇到安全漏洞。日志服务SLS,可帮助快速部署一个预警机制,使得漏洞被利用时可以快速发现并及时响应。通过使用阿里云日志服务SLS,只需两步即可完成攻击检测。
SLS告警管理中心App重磅发布!
SLS发布了一款日志应用:告警管理中心;告警管理中心是一套以业务为中心告警管理运维平台,企业可以将同时将已有的监控告警平台如Zabbix,Prometheus,Datadog等产生的告警和SLS上的Project/Logstore等资源产生的告警添加到告警运维运维中心进行统一的告警管理和通知配置,将相关业务的告警收敛到一个地方进行运维管理,可以有效的提高运维效率。
【ESSD技术解读-02】企业级利器,阿里云 NVMe 盘和共享存储
当前 NVMe 云盘结合了业界最先进的软硬件技术,在云存储市场,首创性同时实现了 NVMe 协议 + 共享访问 + IO Fencing 技术。它在 ESSD 之上获得了高可靠、高可用、高性能,同时基于 NVMe 协议实现了丰富的企业特性,如多重挂载、IO Fencing、加密、离线扩容、原生快照、异步复制等功能。本文详细介绍了云上SAN和NVMe的发展历程,并做出了对未来的构想
ScheduledSQL告警配置
为了方便用户观察Scheduled SQL任务的执行情况,日志服务为Scheduled SQL增加了告警功能,本文主要向用户介绍如何开启Scheduled SQL告警,以及追踪任务的执行情况,方便用户及时发现异常情况。
企业级客户使用阿里云文件存储NAS SMB配置Home Directory服务指南
阿里云文件存储服务提供SMB/NFS/CIFS等多种文件存储协议,单文件系统可以存储海量数据,方便企业级客户在多个用户之间进行文件共享和协同合作。其中SMB协议是微软生态默认的文件共享协议,经过几十年的长期积累,具备广大的用户群,能够支持Windows、MacOS、Linux等多种客户端。阿里云NAS SMB文件存储通过支持AD域服务,可以对一个企业不同部门的不同员工创建不同的用户身份,结合ACL权限控制功能,达到企业有序可控地共享整个文件系统。
SIGMOD 2021《Kafka 流处理对一致性和完整性的设计》解读
Kafka 以消息存储系统在业界闻名,近几年来 Confluent 公司对 on Kafka 流式计算场景又先后推出了 Kafka Streams(流计算)、ksqlDB(基于 Kafka Streams 的类分析型 DB 系统)。笔者对发表在 SIGMOD 2021 上的论文《Consistency and Completeness: Rethinking Distributed Stream Processing in Apache Kafka》做一些总结,梳理 Kafka Streams 在流处理场景上的设计思路。
Jaeger插件开发及背后的思考
本文主要介绍Jaeger最新的插件化后端的接口以及开发方法,让大家能够一步步的根据文章完成一个Jaeger插件的开发。此外SLS也推出了对于Jaeger的支持,欢迎大家试用。
如何用阿里云实行全链路数据追踪
阿里云采用了日志服务,帮助畅捷通构建了用户体验感知、业务安全合规、用户业务链路追踪、成本预算的使用场景,实现了对用户、业务、成本、安全等方面的全维度感知,使得运维效率提升了30%。
释放Trace的价值-SLS OpenTelemetry新功能直击痛点
SLS在2021年4月份正式发布了对OpenTelemetry Trace 1.0版本的支持,完全兼容OpenTelemetry Trace1.0版本的所有字段,提供了Trace显示、分析、拓扑展示等功能。在功能发布后,众多客户开始接入SLS Trace并深度使用,其中对我们也提出来非常多的建议和需求。从中我们提取出了呼声最高的一些功能和优化点,加入到了SLS的Trace方案1.1版本中。
微信也能看账单——SLS成本管家新增微信订阅渠道
阿里云用户使用云资源的同时,成本是个不容忽视的问题。阿里云的计费方式有按量付费和包年包月。对于按量付费方式,手工对账单进行统计分析不仅耗费时间和精力,准确性也没办法保证。 阿里云日志服务的成本管家功能很好的解决了这个问题,将用户从低效的账单获取和整理工作中解放出来,提高账单分析效率。