备案控制台

开发者社区问答正文

什么是日志数据？

日志处理是一个很大范畴，其中包括实时计算、数据仓库、离线计算等众多点。这篇文章主要介绍在实时计算场景中，如何能做到日志处理保序、不丢失、不重复，并且在上下游业务系统不可靠（存在故障）、业务流量剧烈波动情况下，如何保持这三点。
为方便理解，本文使用《银行的一天》作为例子将概念解释清楚。在文档末尾，介绍日志服务LogHub功能，如何与Spark Streaming、Storm Spout等配合，完成日志数据的处理过程。

问题定义

什么是日志数据？

原LinkedIn员工Jay Kreps在《The Log: What every software engineer should know about real-time data’s unifying abstraction》描述中提到：“append-only, totally-ordered sequence of records ordered by time”。

Append Only：日志是一种追加模式，一旦产生过后就无法修改。
Totally Ordered By Time：严格有序，每条日志有一个确定时间点。不同日志在秒级时间维度上可能有重复，比如有2个操作GET、SET发生在同一秒钟，但对于计算机而言这两个操作也是有顺序的。

什么样的数据可以抽象成日志？

半世纪前说起日志，想到的是船长、操作员手里厚厚的笔记。如今计算机诞生使得日志产生与消费无处不在：服务器、路由器、传感器、GPS、订单、及各种设备通过不同角度描述着我们生活的世界。从船长日志中我们可以发现，日志除了带一个记录的时间戳外，可以包含几乎任意的内容，例如：一段记录文字、一张图片、天气状况、船行方向等。半个世纪过去了，“船长日志”的方式已经扩展到一笔订单、一项付款记录、一次用户访问、一次数据库操作等多样的领域。
在计算机世界中，常用的日志有：Metric，Binlog（Database、NoSQL），Event，Auditing，Access Log 等。
在我们今天的演示例子中，我们把用户到银行的一次操作作为一条日志数据。其中包括用户、账号名、操作时间、操作类型、操作金额等。
例如：

2016-06-28 08:00:00 张三存款 1000元
2016-06-27 09:00:00 李四取款 20000元

展开

收起

轩墨 2017-10-23 12:50:06 2619 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

阿里云 AI 助理回答

日志数据是计算机系统、应用程序或设备生成的有序记录序列，用以追踪事件、状态变化或监测系统活动。它遵循“追加-only”原则，即一旦写入便不可修改，并且按时间顺序排序，确保了数据的时序性和不可变性。Jay Kreps在《The Log》一文中将其定义为“一个按时间严格排序的记录序列”。

什么样的数据可以抽象成日志？

几乎任何类型的数据都能够被抽象成日志形式，只要这些数据能够关联到一个具体的时间点。这包括但不限于：

服务器与网络设备日志：记录操作、错误信息、性能指标等。
数据库Binlog：如MySQL的二进制日志，记录数据库的增删改查操作。
事件日志：用户行为、系统事件、应用触发的特定事件等。
审计日志：追踪系统访问、权限变更和安全相关活动。
访问日志：Web服务器、API接口的访问记录。

在实际应用案例中，比如银行交易场景，每一次用户操作（如存款、取款）都可以视为一条日志数据，包含用户标识、账号、操作时间、操作类型及金额等关键信息。例如：

2016-06-28 08:00:00 张三 存款 1000元
2016-06-27 09:00:00 李四 取款 20000元

这样的日志数据对于实时计算尤为重要，尤其是在需要保证数据处理的保序性、不丢失、不重复的场景下。通过日志服务LogHub功能与实时计算框架（如Spark Streaming、Storm Spout）集成，可以在高流量波动和上下游系统存在故障的情况下，依然维持数据处理的可靠性。利用消费组机制，结合Checkpoint技术，可以实现在故障恢复时从上次成功处理的位置继续消费，从而确保数据处理的连续性和准确性。同时，通过配置如WITH参数中的maxRetries来控制读取失败时的重试次数，以及使用query参数进行预处理过滤，可以进一步优化处理流程，提高效率并降低成本。

有帮助

无帮助

AI 助理回答生成答案可能存在不准确，仅供参考

0 条回答

写回答

取消提交回答

问答分类：

传感器分布式计算监控定位技术数据库流计算 Spark 网络架构日志服务实时计算 Flink版

问答标签：

日志服务数据

问答地址：

开发者社区 > 大数据 > 问答

相关问答

flinkcdc 同步mysql数据执行 show binary log 原因是为什么?

1126

1

0

请问下全量同步数据的时候如果日志不全，是做快照执行sql拉取数据吗？

867

0

0

Seata中undo_log表有3W多条数据正常吗？

461

0

0

，配置了按时间戳取数据，数据发生了变更也没有收到变更的日志

350

0

0

请问一下seata都回滚成功了，但是数据2回滚完插入了log_status=1记录，这是什么原因呀？

757

1

0

Seata中AT模式，全局事务未走完，这三张表里没有数据，怎么才能看到这三个表的日志呢？

734

0

0

启动的时候日志将表的数据都打印了下，完了后对表做操作这边日志啥反应都没有这是为什么

511

1

0

上一条日志数据的fulldocument为什么会显示跟下一条fulldocument的数据一样？

478

1

0

Seata中有工具类可以快速的查看undolog日志的数据与实际数据进行对比吗？

546

1

0

Seata中undo_log 表无数据 lock_table 有数据，回滚一直失败是什么原因呢？

2212

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

阿里云开放端口权限

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

如何让 Dify on DMS 助力智能应用开发？

“数据超人”MCP工具，到底是怎么让数据‘燃’起来的？

DeepSeek V3.1 昨天还能用tool，今天怎么就用不了了？

宜搭表单中的子表单数据联动BUG

阿里云学生服务器在哪申请？学生免费服务器领取链接

相关文章

大数据，真能帮我们“降温”吗？——聊聊科技如何应对气候变化

【路径规划】3D 网格地图上规划路径（Matlab代码实现）

【Azure Container App】查看当前 Container App Environment 中的 CPU 使用情况的API

运维告警不是“撞大运”：聊聊数据驱动的异常检测模型

Edge Impulse：面向微型机器学习的MLOps平台——论文解读

还有其他疑问?