![个人头像照片](https://ucc.alicdn.com/avatar/7058b4502104468c93918f4f478e0f63.jpeg)
阿里云 SLS 研发工程师
数据湖技术在日志生态中扮演不可或缺的角色,而打通日志从生产端到数据湖的链路却比较复杂。本文将介绍基于 SLS 方案为日志入湖提供端到端(End-to-End)支持,帮助用户提升接入效率,并在费用、运维上有效降低成本。
K8s 是基于状态机的设计,在不同状态之间迁移时会生成事件。正常的状态间转换会生成 Normal 事件,从正常状态转换为异常状态则会生成 Warning 事件。使用 K8s 集群,我们关注业务、容器、集群三个层面稳定性,最基础的依赖是 K8s node 要稳定。可能影响 pod 运行的节点问题包括:...
大数据快速增长的需要泛日志(Log/Trace/Metric)是大数据的重要组成,伴随着每一年业务峰值的新脉冲,日志数据量在快速增长。同时,业务数字化运营、软件可观测性等浪潮又在对日志的存储、计算提出更高的要求。从时效性角度看日志计算引擎:数仓覆盖 T + 1 日志处理,准实时系统(搜索引擎、OLA...
SLS 新推出 Scan 功能,让未索引的字段也支持搜索(硬扫描模式),节省全量索引产生的构建和存储费用,同时 Scan 的运行时计算模式对于杂乱结构的日志数据有更好的适配,帮助企业客户实现数字化增效、IT 支出降本的目标。
本文是对 SIGMOD 2021 上《JSON Tiles: Fast Analytics on Semi-Structured Data》的学习总结,有错误之处欢迎交流。
本文是学习总结,有错误处欢迎交流。
本文介绍三款 "schema-on-read" 类型日志系统。
本文对 Event Hubs(2014 年推出)产品及近半年 GA 的特性做一些解读。
2021 AWS Re-Invent 上发布了 MSK Serverless,本文从 Stream Storage 角度做一些调研解读。
SLS 投递 OSS 功能介绍、使用帮助、场景实践合集
SLS 的队列功能及上下游生态可以为日志入湖提供端到端的支持,要修高速公路(PaaS/SaaS 数据源),也要去做“村村通”(端、开源软件)。 SLS 入湖支持包括四个部分: ● 可靠的采集能力覆盖 ● 弹性的写入与存储能力 ● 日志 ETL 与入湖准备工作 ● 围绕湖生态的模板支持与一键入湖
Kafka 以消息存储系统在业界闻名,近几年来 Confluent 公司对 on Kafka 流式计算场景又先后推出了 Kafka Streams(流计算)、ksqlDB(基于 Kafka Streams 的类分析型 DB 系统)。笔者对发表在 SIGMOD 2021 上的论文《Consistency and Completeness: Rethinking Distributed Stream Processing in Apache Kafka》做一些总结,梳理 Kafka Streams 在流处理场景上的设计思路。
使用 K8s 集群,我们关注业务、容器、集群三个层面稳定性,最基础的依赖是 K8s node 要稳定。阿里云容器服务(ACK)提供容器场景事件监控方案,通过 NPD(node-problem-detector)以及 kube-eventer 提供容器节点的事件采集、存储能力。本文介绍通过 Scheduled SQL 完成对 K8s 异常事件的定时分析及结果存储。
Nginx 完成请求处理后会记录客户端请求信息到 access log。与业务请求数量成正比,access log 文件内容日积月累,占用大量磁盘的存储空间的同时,数据量增长也使分析 access log 变得困难。本文介绍一种预计算方案实现冷数据的存储优化以及分析效率提升。
针对VPC FlowLog的五元组和捕获窗口信息,在分析时使用不同时间窗口精度,可能得到不一样的流量特征,本文介绍一种方法将原始采集日志的时间窗口做拆分,之后重新聚合为新的日志做分析,达到更细粒度的分析效果。
本文总结了大规模日志全局分析的需求,讨论SLS上现有的典型分析方案,并延伸到 SLS 原生数据处理方案,介绍 Schedueld SQL 功能与最佳实践。
我们正处于大数据、多样化数据(非结构化)的时代,实时的机器数据快速产生,做一家数据公司的核心之一是如何充分利用好大量日志数据。本文将为大家介绍在 SLS 上兼顾日志数据灵活性、经济性的存储策略与实践。
在日志服务,数据加工功能(功能介绍)用于完成对Logstore数据的预处理,为后续的分析阶段准备数据。本文主要介绍数据加工实践中可能遇到的延迟问题,帮助大家理清延迟现象背后的原因,以及如何去监控、解决延迟问题。
Fivetran提供SaaS服务,它连接到业务关键数据源,提取并处理所有数据,然后将其转储到仓库中,以进行SQL访问和必要的进一步转换。
在日志类数据成为生产资料得到越来越多关注的今天,日志服务数据加工抽象了规整、分发、富化等操作,帮助数据在阿里云服务和开源生态间流动起来,让日志分析变得更容易。
日志服务用户,您好! 针对日志生命周期内存在的各种数据规整、分发、富化、清洗场景需求,阿里云日志服务(SLS)新推出了“数据加工”功能。 推荐在日志服务上进行数据规整、加工或联合其它数据源做分析的数据工程师使用。
本文重点介绍了Serverless的发展以及这个浪潮下日志所扮演的角色,并通过阿里云日志服务提供的实时采集、可靠存储、交互式分析能力,为用户搭建Serverless应用日志处理架构提供了两个实践参考。
在Kubernetes服务化、日志处理实时化以及日志集中式存储趋势下,Kubernetes日志处理上也遇到的新挑战,包括:容器动态采集、大流量性能瓶颈、日志路由管理等问题。本文介绍了“Logtail + 日志服务 + 生态”架构,介绍了:Logtail客户端在Kubernetes日志采集场景下的优势;日志服务作为基础设施一站式解决实时读写、HTAP两大日志强需求;日志服务数据的开放性以及与云产品、开源社区相结合,在实时计算、可视化、采集上为用户提供的丰富选择。
访问日志(Acccess Log)是由web服务生成的日志,每一次api请求都对应一条访问记录,内容包括调用者IP、请求的URL、响应延迟、返回状态码、请求和响应字节数等重要信息。 阿里云API网关提供API托管服务,在微服务聚合、前后端分离、系统集成上为用户便利的产品。
日志服务的LogHub是流式的数据中心,日志写入后可实时消费。日志服务ETL面向的正是这些流式写入的数据,提供准实时(1分钟级别)的ETL作业。
看到标题,可能有用户要问:OSS不是用来存图片、视频、及文件的吗,还可以在上面建表、数仓?计算效率和经济性表现怎么样? 本文先给出基本结论: OSS是什么? 对象存储(Object Storage Service,简称OSS)是基于阿里云飞天分布式系统的海量、安全和高可靠的云存储服务,是一种面向互联网的大规模、通用存储,提供RESTful API,具备容量和处理的弹性扩展能力。
数据划分Partition OSS数据存储具有高可靠、低成本等优点,是海量数据存储的最佳选择之一,尤其适用于半结构化的日志存储,并可以结合E-MapReduce(使用Hive、Impala等计算引擎)通过schema-on-read方式加载数据做查询分析。
日志服务支持客户端、网页、Syslog、SDK/API等方式接入数据,参考。 Linux平台上的Logtail客户端拥有优秀的性能和良好的接入体验,在解决跨平台兼容问题后,我们推出Windows Logtail,在功能体验、性能表现上对齐Linux平台版本。
对于日志收集的客户端,其work pipeline通常包括三个过程:Input,Process,Output。 Input 适配各类日志接入源,目前Logtail支持文本文件、Syslog(TCP流式)两种形式数据写入。 Process 自定义日志处理逻辑,常见的有:日志切分、日志编码转换、
基于日志做分析时,常常需要结构化解析日志的内容,将日志切分为不同字段,每个字段表示不同的语义,从而精确到字段进行查询、统计、报警等操作。 在日志采集过程中进行结构化解析是一种常见的方式,比如:Logtail、Fluentd可以通过正则表达式匹配日志、提取字段,Logstash通过grok(底层基于
日志服务结合Logstash 目前,阿里云用户可以通过API/SDK或Logtail将数据写入日志服务,参考。 今天要介绍一个新方法:使用著名开源软件Logstash采集机器日志数据,并结合日志服务插件完成数据上传日志服务功能。