
QCon大会精彩分享:数据湖、可观测、自动驾驶训练,阿里云存储独家技术详解与案例实践!
QCon 全球软件开发大会是由极客邦科技旗下 InfoQ 中国主办的综合性技术盛会,每年在伦敦、北京、纽约、圣保罗、上海、旧金山召开。自2007年3月份开始举办以来,已经有超万名有多年从业经验的技术人员参加过QCon大会。QCon 内容源于实践并面向社区,演讲嘉宾依据热点话题,面向5年以上工作经验的技术团队负责人、架构师、工程总监、开发人员分享技术创新和实践。
一文详解K8s环境下Job类日志采集方案
K8s丰富的controller为分布式任务编排提供了极大的便利,然而任务的时长可能很短(如定时清理数据的任务),甚至有些任务因为一启动就运行失败出现秒退的情况,这给采集任务日志带来了很大的挑战。本文将基于高性能轻量级可观测采集器iLogtail探讨Job日志的多种采集方案,分析这些方案在不同场景下对日志采集所能做到稳定性保证以及方案优化空间。
智能巡检告警配置最佳实践
智能异常分析的检测结果通过 SLS 告警功能输出到用户配置的通知渠道。在智能巡检场景中,单个任务往往会巡检大量的实体对象,涉及到的对象规则很多,我们通过SLS新版告警可以实现较好的对于巡检事件的管理。
iLogtail使用入门-K8S环境日志采集到SLS
iLogtail是阿里云中简单日志服务又名“SLS”的采集部分。 它用于收集遥测数据,例如日志、跟踪和指标,目前已经正式开源(https://github.com/alibaba/ilogtail)。本文通过介绍ilogtail如何在K8S环境进行安装、配置、使用的最简流程,帮助用户使用预编译版本快速上手ilogtail日志采集。
SLS告警最佳实践——在通知中引用日志内容
在配置告警通知的时候,通常我们需要知道告警的触发详情。例如Nginx访问错误告警,我们需要知道错误的HTTP Status 分布,错误的机器IP等信息,并且需要将这些信息体现在通知中,以便在接收到告警通知后,能够一目了然地知道发生了什么事情。那么在创建告警规则的时候,我们就需要进行合理的配置,使得告警在触发后,可以将这些信息放在合适的位置发送给通知服务,从而在通知模板里可以被引用到,从而被正确地通知。
打造Java可观测性的5个关键步骤
伴随云原生和微服务的普及,可观测性设计基本上是作为一个线上业务服务必备的基础能力。这篇文章我将介绍天罡项目围绕可观测性的三大支柱:日志,指标以及链路追踪所做的可观测性设计和实践,以及项目中实施可观测性的5个关键步骤。

MySQL监控-Datadog数据库监控调研
MySQL是最流行的数据库之一,在大多系统的后端的存储都有MySQL的身影,MySQL运行的是否健康,直接影响着整个系统的运行,数据库的瓶颈往往也是整个系统的瓶颈,其重要性不言而喻,所以对于MySQL的监控必不可少,及时发现MySQL运行中的异常,可以有效提高系统的可用性和用户体验。 本文主要介绍下MySQL如何做监控,以及对Datadog的Database Monitoring的一些简单调研。

基于ScheduledSQL实现K8S集群指标预计算
随着云原生的普及,各家公司都通过K8S实现了服务的容器化,极大的简化了开发运维人员的工作,是目前最为常用的基础服务。同时,K8S集群中的各项基础服务能够通过metrics接口导出Prometheus格式的多种指标,方便观察当前系统状态,及时发现问题。用户将K8S集群指标采集到日志服务SLS时序存储之后,可以随时查看系统历史及当前指标,还可以通过SLS内置仪表盘或者Grafana构建监控大盘,方便观察系统情况。但是随着系统规模以及负载成倍增加,复杂的指标查询以及监控大盘的渲染开始变慢,进而影响操作体验。

企业级客户使用阿里云文件存储NAS SMB配置Home Directory服务指南
阿里云文件存储服务提供SMB/NFS/CIFS等多种文件存储协议,单文件系统可以存储海量数据,方便企业级客户在多个用户之间进行文件共享和协同合作。其中SMB协议是微软生态默认的文件共享协议,经过几十年的长期积累,具备广大的用户群,能够支持Windows、MacOS、Linux等多种客户端。阿里云NAS SMB文件存储通过支持AD域服务,可以对一个企业不同部门的不同员工创建不同的用户身份,结合ACL权限控制功能,达到企业有序可控地共享整个文件系统。
【CDS技术揭秘系列 01】阿里云CDS-OSS容灾大揭秘
本文主要阐述 CDS 产品中 OSS 服务在容灾方面的部署形态以及实现的其本原理。 容灾功能可以保证用户一份数据在多个地方存在冗余备份,当某个机房出现极端异常(比如物理损毁)情况下,数据也不会出现丢失;也可以保障当某个机房出现不可用(比如断电)时,用户向外提供的功能也基本不受影响。

5分钟理解SLS告警通知时机
SLS告警支持丰富的告警管理功能,例如合并抑制静默等功能,跟SLS旧版告警相比增加了很多告警降噪抑制的功能,和用户管理,值班组和可定制复用的内容模板功能。在使用的过程中,因为增加了告警的降噪功能,从告警产生到发送通知这个过程增加了一个告警降噪的过程;因为降噪机制的存在,可能会出现告警触发但不一定会立即发出通知的情况。了解SLS告警通知时机将有助于理解这些情况。
Jaeger插件开发及背后的思考
本文主要介绍Jaeger最新的插件化后端的接口以及开发方法,让大家能够一步步的根据文章完成一个Jaeger插件的开发。此外SLS也推出了对于Jaeger的支持,欢迎大家试用。

Apache SkyWalking接入SLS Trace实践
Apache SkyWalking 是一款非常优秀的应用性能监控(APM)工具,对微服务、云原生和容器化应用提供自动化、高性能的监控方案。项目于 2015 年创建,并于 2017 年 12 月进入 Apache 孵化器,目前已经是Apache的顶级项目。SLS Trace已经支持Apache SkyWalking Agent端直接接入SLS Trace服务。运维人员可以直接将已经接入Apache SkyWalking的应用的Agent端直接接入到SLS Trace服务(下文会有详细说明)而不需要考虑规模和部署的问题。

SLS告警内置通知渠道最佳实践
为了实现全方位、多层次的告警通知,SLS告警内置了多种通知渠道,从触达强度、通知内容丰富程度等方面进行了全方位的覆盖。本文会详细介绍各个渠道的一些特点以及限制,并给出一般场景下的最佳实践。

SLS新版告警入门——告警管理编排交互
在之前的告警策略和行动策略相关的文章中,我们可以看到,为了配置各种策略逻辑,使用的都是类似的交互方式,即基于可视化图的表单。本文主要来介绍一下策略图相关的交互和配置。
【vSAN分布式存储服务器数据恢复】VMware vSphere vSAN ESXi超融合HCI分布式存储数据恢复案例
近期,我司处理了一个由10台华为OceanStor存储组成的vSAN超融合架构,其中一台存储闪存盘出现故障,用户取下后用新的闪存盘代替,然后对该闪存盘所在的磁盘组进行重建,导致集群中一台使用0置备策略的虚拟机数据丢失。
初识Linux操作系统(根目录下的重要文件)(命令提示符的含义)
Linux系统基于"一切皆文件"的理念,重要文件分布在如/root(root用户目录)、/home(普通用户目录)、/etc(应用配置)、/dev(设备文件)、/boot(内核及启动文件)、/proc(动态系统信息)、/lib64(库文件)、/opt(软件存放)、/tmp(临时文件)。"[root@localhost ~]#"代表管理员在root目录,"$"代表普通用户。创建新用户用`useradd`命令。调节终端字体大小:Ctrl+Shift++增大,Ctrl+减号缩小。绝对路径从根目录开始,相对路径从当前目录开始。
利用阿里云云产品进行项目成本节约的实践
本文分享了利用阿里云降低成本的实践经验,主要通过选择合适的计费模式(如按量付费、包年包月和抢占式实例)、优化资源配置(弹性伸缩、资源监控与调整、适配存储方案)、利用优惠和成本管理工具(预留实例券、成本预警、优惠活动)以及案例分析,实现云计算成本的有效控制。通过这些策略,企业在保证灵活性和扩展性的同时,能更好地管理云服务成本,提高项目经济效益。

AIGC训练场景下的存储特征研究
在今天这样以AIGC为代表的AI时代下,了解训练场景对于存储的具体诉求同样是至关重要的。本文将尝试解读WEKA的一个相关报告,来看看AIGC对于存储有哪些具体的性能要求。
离散型工厂生产制造MES管理系统解决方案
MES 是车间中用以管理和优化从订单下达到产品完工的整个生产过程的硬件和软件的集合,它控制和利用准确的制造信息,对车间生产活动中的实时事件做出快速响应,同时向企业决策支持过程提供相关生产活动的重要信息。
存储稳定性测试与数据一致性校验工具和系统
LBA tools are very useful for testing Storage stability and verifying DATA consistency, there are much better than FIO & vdbench's verifying functions.
日志服务(SLS)测评
在本次测评中,我将对日志服务SLS产品进行全面评估,主要从以下四个方面展开。首先,我将进行功能测试,基于之前参加的两次训练实验,对其功能进行评估。其次,我将与其他数据分析&可观测性产品进行比较,以了解SLS的优势和差异。然后,我将进行成本与收益分析,探讨SLS作为一站式的可观测数据存储分析平台所带来的成本节约和收益提升。最后,我将对SLS进行简要总结,并提出一些期待,希望能够为用户提供有用的参考信息。

阿里云日志服务SLS携手观测云发布可观测性解决方案,共建可观测应用创新
2022年云栖大会期间,阿里云同观测云共同发布可观测性联合解决方案。观测云通过集成日志服务SLS的产品能力,发布了观测云SAAS专属版。

通过日志服务实现数据库MySQL入湖OSS实践
日志服务(SLS)是云原生观测分析平台,为Log/Metric/Trace等数据提供大规模、低成本、实时平台化服务。一站式提供数据采集、加工、分析、告警可视化与投递功能。阿里云提供了企业级的数据湖解决方案,存储层基于阿里云对象存储OSS构建。日志服务支持开箱即用的OSS投递入湖功能,实现数据的端到端的入湖。 本文主要介绍如何借助日志服务将关系型数据库MySQL数据入湖和实践,并介绍数据在入湖之前可以日志服务可以提供哪些开箱即用的功能。
iLogtail使用入门-iLogtail本地配置模式部署(For Kafka Flusher)
iLogtail使用入门-iLogtail本地配置模式部署(For Kafka Flusher)
在文件存储HDFS版上使用 CDH6
本文档介绍如何将CDH6中本地HDFS数据迁移到文件存储HDFS版,并配置CDH上的HDFS服务、Hive服务、Spark服务、HBase服务使用文件存储HDFS版,实现存储计算分离。
文件存储HDFS版和对象存储OSS双向数据迁移
本文档介绍文件存储HDFS版和对象存储OSS之间的数据迁移过程。您可以将文件存储HDFS版数据迁移到对象存储OSS,也可以将对象存储OSS的数据迁移到文件存储HDFS版上。
SLS告警响应升级——通知对接FC进行自动化操作
阿里云SLS告警响应升级,通知渠道新增了对函数计算的支持,从而可以在告警触发的时候进行一定的自动化响应操作,以便进行故障自愈,减轻手动运维压力,提高系统的可用性。
基于访问日志实现OSS监控
对象存储OSS是阿里云提供的云存储服务,能够以低成本为用户提供高可靠性的海量数据存储服务。作为基础服务,用户需要时刻关注OSS的使用状况,检测异常状态,从而及时作出响应。
5分钟搞定Loki告警多渠道接入
Loki是受Prometheus启发的水平可扩展、高可用、多租户日志聚合系统。用户既可以将Loki告警直接接入SLS开放告警,也可以先将Loki接入Grafana或Alert Manager,再借助Grafana或Alert Manager实现Loki间接接入SLS开放告警。
使用SLS Trace实现Jaeger的高可靠部署方案
Jaeger的高可用最核心的部分是Jaeger后端(包括Collector、Kafka、Flink、DB、Query、UI),我们最好的方式是寻找一个能够兼容Jaeger的后端系统,提供高可靠、高性能的能力。而SLS最近发布的Trace服务恰巧可以完美解决这个问题。SLS最大的一个特点就是高性能、弹性和免运维,让用户轻松应对激增流量或者规模评估不准确的问题,SLS服务本身提供99.9%的可用性以及11个9的数据可靠性。

对 K8s 异常事件的定时 SQL 分析
使用 K8s 集群,我们关注业务、容器、集群三个层面稳定性,最基础的依赖是 K8s node 要稳定。阿里云容器服务(ACK)提供容器场景事件监控方案,通过 NPD(node-problem-detector)以及 kube-eventer 提供容器节点的事件采集、存储能力。本文介绍通过 Scheduled SQL 完成对 K8s 异常事件的定时分析及结果存储。

使用SLS告警为你的OSS保驾护航
SLS告警作为一站式运维告警平台,也为OSS的访问提供了定制化的告警规则,用户只需要一键开启,即可完成对OSS访问指标的监控,并可以在指标出现异常时及时收到告警。本文主要介绍如何使用在OSS访问日志上开启SLS告警及配置方法。

如何用阿里云实行全链路数据追踪
阿里云采用了日志服务,帮助畅捷通构建了用户体验感知、业务安全合规、用户业务链路追踪、成本预算的使用场景,实现了对用户、业务、成本、安全等方面的全维度感知,使得运维效率提升了30%。

使用Terraform玩转SLS日志审计自动化部署
Terraform是一种开源工具,用于安全高效地预览,配置和管理云基础架构和资源。阿里云的terraform-provider-alicloud目前已经提供了超过 163 个 Resource 和 113 个 Data Source,覆盖计算,存储,网络,负载均衡,CDN,容器服务,中间件,访问控制,数据库等超过35款产品。 本文主要介绍如何使用Terraform自动化部署阿里云日志服务下的日志审计服务。