SLS日志服务

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: SLS日志服务。。。。

综述

日志服务(SLS)是阿里云上的云原生观测分析平台,为Log/Metric/Trace等数据提供大规模、低成本、实时的平台化分析服务。作为一款与用户日常工作息息相关的产品,SLS对于用户体验的反馈尤为重视,在每年年初SLS均会投放用户体验调研问卷,用于收集用户反馈。虽然无法与每一位反馈的用户进行详细的交流及评估的反馈,但是这些反馈SLS团队收到后均会进行细致的评估,并结合实际的产品规划纳入后续的迭代中。


本文主要作为对2021年SLS产品用户体验改进工作的总结,如您对于产品有任何的建议,可以通过文末的用户体验调研问卷向我们反馈。


用户体验部分将从查询分析性能、功能易用性、控制台前端体验、场景化应用拓展、成本与费用 五个模块进行展开。


一:查询分析性能

1.1 SQL独享版功能发布支持更高性能的计算力


从往期的用户调研反馈可以看出,查询分析性能是用户使用SLS普遍关心的问题。SLS在早期提供了免费的SQL能力,支持十亿级数据的秒级结果返回,该功能也得到了广大用户的认可。但是对于该能力,我们也收到了用户的两个反馈:

(1)SQL并发仅支持15个无法满足部分场景需求,如多报表数据大屏的实时刷新场景

(2)当数据规模继续扩大时,由于资源的限制SLS无法在一次的查询中完整扫描所有日志,会先返回部分不精确的结果,然后需要通过多次查询或者扩容Shard来得到精确结果。


为了改善该问题,SLS在2021年推出了SQL独享版功能,详细请参考SQL独享版。SQL独享版功能相比免费版本SQL具备更高性能,更大并发(单个Project分析操作支持100个并发),更大规模(支持千亿级数据分析)的特点,适用于TB级长周期数据的复杂分析场景。该功能对于消耗的CPU资源收取少量费用(0.35元/核*小时),且支持Query级别启停能力,用户可以结合实际的业务需求自由选择使用。


二:功能易用性

2.1 Logtail采集配置支持导入功能


Logtail是SLS用户高频使用的采集Agent,部分需要同时支持多个业务的用户反馈Logtail采集配置无法复制,需要对多个业务逐一进行配置。为改善该问题,在数据接入流程的Logtail配置页面,目前已经支持了Logtail配置的导入功能,用户可以导入现有的Logtail配置并在该配置基础上进行调整。

2.2 可视化SQL功能发布优化查询分析体验


数据写入SLS后,通过查询分析功能可以进一步挖掘数据的价值,但是如何基于SLS查询语法和SQL统计分析语法实现对应的业务需求成为了很多用户在实践中遇到的问题。为了帮助用户简单、快速地构建查询分析语句,降低用户的学习成本,SLS推出了交互式查询分析(Data Explorer)功能,让用户无需关注语法细节也可完成查询分析,详细请参考查询辅助输入


用户在查询分析页面的输入框中,点击右侧图标,即可唤起Data Explorer面板。随后在配置面板中,交互式地配置查询统计条件,即可实时生成对应的查询分析语句。

同时为了最大程度的保证用户使用的灵活性,DataExplorer面板上的查询分析条件与用户手动输入的查询分析语句是实时双向同步的。用户既可以通过DataExplorer面板生成查询分析语句,也可以在查询框中修改生成的语句。DataExplorer会实时解析用户手动输入的语句并同步到面板上。

2.3 数据加工支持搜索特定日志进行快速预览


SLS数据加工服务可用于数据的规整、富化、流转、脱敏和过滤等预处理操作。为了验证加工任务的准确性,用户往往需要通过加工预览来验证加工结果,部分用户反馈在使用快速预览功能时有时预期的数据在logstore中是少量存在的,因此抽样出的数据不包含预期的数据,为了优化该问题,SLS支持了搜索特定日志进行快速预览的能力。

用户仅需通过查询将目标日志筛选出来后,复制到数据加工的测试数据栏,再单击快速预览,即可基于用户需求的日志查看加工结果。

2.4 新版告警用户体验优化


SLS在2021年对于功能功能进行了全新升级,新版告警支持全局的数据源监控、智能降噪、灵活的通知渠道等能力,详细请参考告警(新版)。该功能发布后收到了广泛用户的认可,同时也收到了许多用户的反馈建议。以下列举部分用户普遍关心的问题。2


2.4.1 告警监控模板支持复制功能


告警监控规则配置是使用告警功能的高频场景,与配置logtail类似,对于多业务场景的用户,不同的业务间如果架构相似,监控规则可以一定程度上复用。为了改善多业务场景用户的体验,SLS对于监控规则提供了复制的能力,在告警规则列表页,可以选择目标规则复制到新的Project/Logstore进行复用。

2.4.2 移动端免登录查看告警详情


IM 工具例如钉钉、企业微信等逐渐成为主流接收告警通知的渠道,而基于IM工具接收到告警后可以看到告警的详情,但是如果我们想要看更详细的一些内容,或者做一些基础的操作,就比较麻烦。为了优化移动端处理告警的体验,SLS提供免登录功能,用户收到告警通知后,无需登录控制台即可查看告警详情以及进行告警规则、告警事务的管理操作。详细请参考免登录查看告警详情


以钉钉渠道为例,当收到告警通知后,在消息的最下面会有一个“查看详情”的按钮,点击后即可在手机上免登陆直接查看告警内容。详情页面可以进行如下操作:

  • 查看告警的详情
  • 对告警事务进行工作流处理:确认告警、忽略告警、设置处理人、添加注释等
  • 对告警规则进行一些设置:关闭告警规则,或者临时关闭该告警规则

三:控制台前端体验

3.1 控制台流畅度优化


用户基于SLS控制台可完成数据采集、查询分析、可视化等一系列操作,由于中间可能涉及到大量的资源加载或图片渲染,部分用户反馈存在页面加载不流畅问题。针对该反馈SLS对于控制台前端架构进行了升级,重点优化了加载延迟和流畅度问题。根据数据显示首页加载时间从4.8s减少到了1.5s。

3.2 可视化报表体验优化


针对仪表盘部分,SLS进行了全新升级,重点优化了编辑期间性能低容易卡死、排版对齐不方便,存在拖动抖动的情况、布局不整齐等用户反馈。


新增了全新的暗黑模式仪表盘,调整了底色和主色,使得页面对比度增高。

调整仪表盘新增了辅助线提示,帮助用户更容易进行排版布局。

3.3 控制台布局优化


SLS提供了丰富的功能平台功能,并且依然处于快速迭代的阶段。在此阶段中,收到了许多用户反馈功能入口较深的问题,基于该反馈SLS今年对于首页布局及功能栏布局进行了微调。对于首页收敛了用量资源的首屏占比,将更多的空间留给各模块功能。对于功能栏,将功能菜单进行了合并,便于用户根据需求找到对应的功能。


控制台布局优化目前仍在迭代中,2022年将会有一个大版本发布,敬请大家到时候进行体验并提供反馈。


四:场景化应用拓展


SLS除提供平台型的原子能力外,在2021年也在持续摸索提供即开即用的场景化应用能力,以帮助用户能够快速落地场景化需求。本部分将对于SLS的场景化应用拓展功能进行介绍。


4.1 CloudLens云产品可观测应用


CloudLens云产品可观测应用是SLS推出的面向主流阿里云产品提供运维管理场景化能力的应用, 可提供云产品的用量、性能、访问分析等的数据分析、可视化、监控预警、异常巡检、建议引导,从成本、性能、安全、数据保护、稳定性、访问分析六个纬度,提供对云产品的运维管理能力。


适用于云产品的深度使用用户,目前已上线EBS、ALB、RDS、PolarDB、Redis、K8s等产品Lens应用,更多产品陆续迭代上线中。


4.2 Trace服务


OpenTelemetry目前已经成为可观测性的标准协议,但OpenTelemetry只提供数据的格式定义、产生、收集、发送,但并不提供分析、可视化、告警等功能。日志服务Trace APP基于OpenTelemetry协议实现,支持采集OpenTelemetry以及其他平台(例如Jaeger、Zipkin、SkyWalking等)的Trace数据,并提供Trace数据存储、分析(支持Trace/Log/Metirc融合分析)、可视化(支持拓扑图展示)、告警等功能。详细参考Trace服务


Trace服务适用于云原生、分布式、微服务等涉及多个服务交互的系统场景监控运维需求。

4.3 移动运维监控


SLS移动运维监控用于实时监控移动应用、前端页面、小程序的运行,并且支持智能分析,帮助用户低成本、高效率地发现各类移动端应用的潜在隐患。移动运维监控提供数据接入、移动监控、前端监控、小程序监控等功能。详细参考移动运维监控

4.4 全栈监控应用


SLS全栈监控应用是日志服务提供的一站式IT系统监控方案,监控的目标包括主机监控、Kubernetes监控、数据库监控、中间件监控等。全栈监控内置丰富的可视化报表,包括资源总览、水位监控、热点分析、详细指标等,支持对接AIOps指标巡检,利用机器学习技术自动发现异常指标,实现对于各类系统的实时监控。详细参考全栈监控

五:成本与费用


5.1 智能冷存储层发布,优化长周期数据保存成本


对于超过30天以上的数据,由于数据量规模较大用户有降低存储成本的诉求,同时由于该部分数据可作为如审计及运营报表的数据源,依然需要进行查询分析。早前针对该场景,用户需要将数据归档到OSS后,在需要使用是重新导入SLS进行分析。


为了优化该场景体验,SLS发布了智能冷存储层功能,对于超过30天的热数据,可以通过设置TTL将热数据转换为冷数据,降低存储成本的同时兼顾了用户的查询分析需求。详细请参考智能冷热分层存储


5.2 数据加工架构升级,免除不同服务模块间数据流转费用


SLS正在逐步对于数据加工模块进行了架构升级,充分发挥SLS一站式数据平台的优势,数据加工功能从Logstore读取及写入数据将不再需要在不同服务模块间数据流转。


本次架构升级预计在3月底全网发布,全网升级后SLS团队将通过官网等渠道向用户公告,届时使用数据加工服务的用户可以重启已运行的加工任务,重启后的加工任务将运行到新的架构中。运行在新架构的任务将享受到架构优化带来的红利,由于避免了不同服务模块间数据流转,会直接减少数据加工产生的数据读写流量(压缩后)及请求数费用。


5.3 Project/Logstore级别用量明细透出,让用量更清晰


用量明细一直是用户普遍提到的诉求,在2021年SLS除成本管家应用外,在控制台首页也集成了阿里云控制台的账单明细数据页面,为用户提供了详细的用量明细数据。后续SLS将对于用量明细的能力进行进一步优化,计划在首页直接提供原生的用量明细功能,并支持过滤排序等能力,让用户的SLS使用更加清晰可控。该发布预计在今年4月份之前,敬请大家体验并反馈。

写在最后


2022年的用户体验调研问卷已经开始收集,如您有任何的建议,欢迎您通过用户体验调研问卷向我们反馈,链接:


用户体验优化是一件需要持续迭代坚持去做的事情,SLS团队也将不忘初心,为用户提供更多有价值的能力。


对SLS相关内容感兴趣的,也可以通过如下方式了解更多,谢谢关注:

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
相关文章
|
1月前
|
XML 安全 Java
【日志框架整合】Slf4j、Log4j、Log4j2、Logback配置模板
本文介绍了Java日志框架的基本概念和使用方法,重点讨论了SLF4J、Log4j、Logback和Log4j2之间的关系及其性能对比。SLF4J作为一个日志抽象层,允许开发者使用统一的日志接口,而Log4j、Logback和Log4j2则是具体的日志实现框架。Log4j2在性能上优于Logback,推荐在新项目中使用。文章还详细说明了如何在Spring Boot项目中配置Log4j2和Logback,以及如何使用Lombok简化日志记录。最后,提供了一些日志配置的最佳实践,包括滚动日志、统一日志格式和提高日志性能的方法。
330 30
【日志框架整合】Slf4j、Log4j、Log4j2、Logback配置模板
|
13天前
|
监控 安全 Apache
什么是Apache日志?为什么Apache日志分析很重要?
Apache是全球广泛使用的Web服务器软件,支持超过30%的活跃网站。它通过接收和处理HTTP请求,与后端服务器通信,返回响应并记录日志,确保网页请求的快速准确处理。Apache日志分为访问日志和错误日志,对提升用户体验、保障安全及优化性能至关重要。EventLog Analyzer等工具可有效管理和分析这些日志,增强Web服务的安全性和可靠性。
|
2月前
|
XML JSON Java
Logback 与 log4j2 性能对比:谁才是日志框架的性能王者?
【10月更文挑战第5天】在Java开发中,日志框架是不可或缺的工具,它们帮助我们记录系统运行时的信息、警告和错误,对于开发人员来说至关重要。在众多日志框架中,Logback和log4j2以其卓越的性能和丰富的功能脱颖而出,成为开发者们的首选。本文将深入探讨Logback与log4j2在性能方面的对比,通过详细的分析和实例,帮助大家理解两者之间的性能差异,以便在实际项目中做出更明智的选择。
328 3
|
23天前
|
存储 监控 安全
什么是事件日志管理系统?事件日志管理系统有哪些用处?
事件日志管理系统是IT安全的重要工具,用于集中收集、分析和解释来自组织IT基础设施各组件的事件日志,如防火墙、路由器、交换机等,帮助提升网络安全、实现主动威胁检测和促进合规性。系统支持多种日志类型,包括Windows事件日志、Syslog日志和应用程序日志,通过实时监测、告警及可视化分析,为企业提供强大的安全保障。然而,实施过程中也面临数据量大、日志管理和分析复杂等挑战。EventLog Analyzer作为一款高效工具,不仅提供实时监测与告警、可视化分析和报告功能,还支持多种合规性报告,帮助企业克服挑战,提升网络安全水平。
|
2月前
|
存储 缓存 关系型数据库
MySQL事务日志-Redo Log工作原理分析
事务的隔离性和原子性分别通过锁和事务日志实现,而持久性则依赖于事务日志中的`Redo Log`。在MySQL中,`Redo Log`确保已提交事务的数据能持久保存,即使系统崩溃也能通过重做日志恢复数据。其工作原理是记录数据在内存中的更改,待事务提交时写入磁盘。此外,`Redo Log`采用简单的物理日志格式和高效的顺序IO,确保快速提交。通过不同的落盘策略,可在性能和安全性之间做出权衡。
1708 14
|
1月前
|
存储 监控 安全
什么是日志管理,如何进行日志管理?
日志管理是对IT系统生成的日志数据进行收集、存储、分析和处理的实践,对维护系统健康、确保安全及获取运营智能至关重要。本文介绍了日志管理的基本概念、常见挑战、工具的主要功能及选择解决方案的方法,强调了定义管理目标、日志收集与分析、警报和报告、持续改进等关键步骤,以及如何应对数据量大、安全问题、警报疲劳等挑战,最终实现日志数据的有效管理和利用。
105 0
|
2月前
|
Python
log日志学习
【10月更文挑战第9天】 python处理log打印模块log的使用和介绍
43 0
|
2月前
|
数据可视化
Tensorboard可视化学习笔记(一):如何可视化通过网页查看log日志
关于如何使用TensorBoard进行数据可视化的教程,包括TensorBoard的安装、配置环境变量、将数据写入TensorBoard、启动TensorBoard以及如何通过网页查看日志文件。
278 0
|
2月前
|
存储 分布式计算 NoSQL
大数据-136 - ClickHouse 集群 表引擎详解1 - 日志、Log、Memory、Merge
大数据-136 - ClickHouse 集群 表引擎详解1 - 日志、Log、Memory、Merge
61 0
|
2月前
|
缓存 Linux 编译器
【C++】CentOS环境搭建-安装log4cplus日志组件包及报错解决方案
通过上述步骤,您应该能够在CentOS环境中成功安装并使用log4cplus日志组件。面对任何安装或使用过程中出现的问题,仔细检查错误信息,对照提供的解决方案进行调整,通常都能找到合适的解决之道。log4cplus的强大功能将为您的项目提供灵活、高效的日志管理方案,助力软件开发与维护。
72 0