Zoom 基于Apache Hudi 的流式日志处理实践

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: Zoom 基于Apache Hudi 的流式日志处理实践

在当今的数字时代,日志记录是应用程序开发和管理的一个重要方面,但在遵守数据保护法规的同时有效管理日志可能是一项重大挑战。Zoom 与 AWS 数据实验室团队合作,开发了一种创新架构来克服这些挑战并简化日志记录和记录删除流程。在本文中我们探讨了架构及其为 Zoom 及其用户提供的优势。

应用程序日志挑战:数据管理和合规性

应用程序日志是任何应用程序的重要组成部分;它们提供有关系统的使用和性能的有价值的信息。这些日志用于各种目的,例如调试、审计、性能监控、商业智能、系统维护和安全。然而,尽管这些应用程序日志对于维护和改进应用程序是必要的,但它们也遇到了一个挑战。这些应用程序日志可能包含个人身份数据,例如用户名、电子邮件地址、IP 地址和浏览历史记录,这会引起数据隐私问题。

通用数据保护条例 (GDPR) 和加州消费者隐私法案 (CCPA) 等法律要求组织在特定时间段内保留应用程序日志。数据存储所需的确切时间长度因具体法规和存储的数据类型而异。这些数据保留期的原因是为了确保公司保留个人数据的时间不会超过必要的时间,这可能会增加数据泄露和其他安全事件的风险。这也有助于确保公司不会将个人数据用于收集数据的目的以外的目的,否则可能会违反隐私法。这些法律还赋予个人要求删除其个人数据的权利,也称为“被遗忘权”。个人有权要求删除其个人数据,不得无故拖延。

因此,一方面组织需要收集应用程序日志数据以确保其服务的正常运行,并将数据保留特定时间段。但另一方面,他们可能会收到个人要求从日志中删除其个人数据的请求。这为组织创造了一种平衡行为,因为它们必须遵守数据保留和数据删除要求。

对于在多个国家和州运营的大型组织而言,这个问题变得越来越具有挑战性,因为每个国家和州可能都有自己关于数据保留和删除的规则和条例。例如,加拿大的个人信息保护和电子文件法 (PIPEDA) 和澳大利亚的澳大利亚隐私法与 GDPR 类似的法律,但它们可能有不同的保留期限或不同的例外情况。因此,无论大小,组织都必须驾驭数据保留和删除要求的复杂环境,同时还要确保它们遵守所有适用的法律和法规。

Zoom 的初始架构

在 COVID-19 大流行期间,随着越来越多的人被要求在家工作和上课,Zoom 的使用猛增。该公司必须快速扩展其服务以适应激增,并与 AWS 合作在全球大多数地区部署容量。随着大量应用程序端点的突然增加,他们不得不快速发展他们的日志分析架构,并与 AWS 数据实验室团队合作,为他们的合规性用例快速构建原型并部署架构。

Zoom对数据摄取吞吐量和性能需求非常严格。必须从每分钟产生超过 3000 万条消息的数千个应用程序端点提取数据,每天产生超过 100 TB 的日志数据。现有的摄取管道包括首先通过 Apache Kafka 将数据写入 Apache Hadoop HDFS 存储,然后运行日常作业以将数据移动到持久存储。这花了几个小时,同时也减慢了摄取速度并可能造成数据丢失。扩展架构也是一个问题,因为无论何时添加或删除节点,都必须移动 HDFS 数据。此外,数十亿条记录的事务语义对于帮助满足与合规性相关的数据删除请求是必要的,并且日常批处理作业的现有架构在操作上效率低下。

正是在这个时候,通过与 AWS 客户团队的对话,AWS 数据实验室团队参与进来,协助为 Zoom 的超大规模构建解决方案。

解决方案概述

AWS 数据实验室在客户和 AWS 技术资源之间提供加速的联合工程参与,以创建有形的可交付成果,从而加速数据、分析、人工智能 (AI)、机器学习 (ML)、无服务器和容器现代化计划。数据实验室提供三种服务:构建实验室、设计实验室和常驻架构师。在构建和设计实验室期间,AWS 数据实验室解决方案架构师和 AWS 专家通过提供规范的架构指导、共享最佳实践、构建工作原型和消除技术障碍来帮助满足其生产需求,特别支持 Zoom。

Zoom 和 AWS 团队(以后统称为“团队”)确定了数据摄取和删除的两个主要工作流程。

数据摄取工作流

下图说明了数据摄取工作流。

该团队需要在开发/测试环境中快速填充数百万条 Kafka 消息才能实现这一目标。为了加快流程,我们(团队)选择使用 Amazon Managed Streaming for Apache Kafka (Amazon MSK),这使得实时摄取和处理流数据变得简单,而且我们在不到一天的时间内就启动并运行了。

为了生成类似于生产数据的测试数据,AWS 数据实验室团队创建了一个自定义 Python 脚本,该脚本在多个 Kafka 分区中平均填充超过 12 亿条消息。为了匹配开发帐户中的生产设置,我们必须增加云配额限制。

我们使用 Amazon MSK 和 Amazon EMR 中的 Spark Structured Streaming 功能以高吞吐量和低延迟摄取和处理传入的 Kafka 消息。具体来说,我们将源数据以每 5 分钟 1.5 亿条 Kafka 消息的最大传入速率插入 EMR 集群,每条 Kafka 消息包含 7-25 条日志数据记录。

为了存储数据,我们选择使用 Apache Hudi 作为表格格式。我们选择 Hudi 是因为它是一个开源数据管理框架,可在 Amazon Simple Storage Service (Amazon S3) 等不可变存储层之上提供记录级插入、更新和删除功能。此外,Hudi 针对处理大型数据集进行了优化,并与 Zoom 已经使用的 Spark Structured Streaming 配合得很好。

在缓冲了 1.5 亿条消息后,我们使用 Amazon EMR 上的 Spark Structured Streaming 处理这些消息,并每 5 分钟将数据以 Apache Hudi 兼容的格式写入 Amazon S3。我们首先展平消息数组,从嵌套的消息数组中创建一条记录。然后我们为每条消息添加了一个唯一的主键,称为 Hudi 记录主键。该键允许 Hudi 对数据执行记录级别的插入、更新和删除操作。我们还从传入消息中提取字段值,包括 Hudi 分区键。

该架构允许最终用户使用带有 AWS Glue 数据目录的 Amazon Athena 或使用 Apache Hive 和 Presto 查询存储在 Amazon S3 中的数据。

数据删除工作流程

下图说明了数据删除工作流程。

我们的架构允许高效的数据删除。为了帮助遵守针对 GDPR 删除的客户发起的数据保留政策,计划的作业每天运行以识别要以批处理模式删除的数据。

然后我们启动了一个瞬态 EMR 集群来运行 GDPR upsert 作业来删除记录。数据以 Hudi 格式存储在 Amazon S3 中,Hudi 的内置索引使我们能够使用布隆过滤器和文件范围高效地删除记录。因为只有那些包含记录键的文件需要读取和重写,所以从 10 亿条记录中删除 1,000 条记录只需要大约 1-2 分钟,而这在以前需要数小时才能完成,因为整个分区都被读取了。

总体而言,我们的解决方案实现了高效的数据删除,根据 GDPR 要求,这提供了对 Zoom 至关重要的额外数据安全层。

构建优化规模、性能和成本的架构

在本节中,我们将分享 Zoom 为优化规模、性能和成本而采取的以下策略:

• 优化摄取

• 优化吞吐量和 Amazon EMR 利用率

• 使用 EMRFS 解耦摄取和 GDPR 删除

• 使用 Apache Hudi 进行高效删除

• 使用 Apache Hudi 优化低延迟读取

• 监控

优化摄取

为了保持 Kafka 中的存储精简和优化,并获得实时数据视图,我们创建了一个 Spark 作业,以每批 1.5 亿条消息的形式读取传入的 Kafka 消息,并以与 Hudi 兼容的格式写入 Amazon S3 5分钟。即使在迭代的初始阶段,当我们还没有开始扩展和调整时,我们也能够使用 Apache Spark 的 Amazon EMR 运行时在 2.5 分钟内成功加载所有 Kafka 消息。

优化吞吐量和 Amazon EMR 利用率

我们启动了一个成本优化的 EMR 集群,并从统一实例组切换到使用 EMR 实例队列。我们选择实例队列是因为我们需要灵活地将 Spot 实例用于任务节点,并希望分散可用区中特定实例类型的容量耗尽的风险。

我们开始尝试测试运行,首先将 Kafka 分区数从 400 更改为 1,000,然后更改任务节点数和实例类型。根据运行结果,AWS 团队提出了使用具有三个核心节点(r5.16xlarge(每个 64 个 vCPU))的 Amazon EMR 和使用 Spot 队列实例(r5.16xlarge (r5.16xlarge (r5.16xlarge ( 64 个 vCPU)、r5.12xlarge(48 个 vCPU)、r5.8xlarge(32 个 vCPU))。这些建议帮助 Zoom 将其 Amazon EMR 成本降低了 80% 以上,同时实现了在 5 分钟内摄取 1.5 亿条 Kafka 消息的预期性能目标。

使用 EMRFS 解耦摄取和 GDPR 删除

存储和计算分离的一个众所周知的好处是可以独立扩展。但一个不太明显的优势是可以将连续工作负载与零星工作负载分离开来。以前数据存储在 HDFS 中,资源密集型 GDPR 删除作业和数据移动作业将与流摄取竞争资源,导致上游 Kafka 集群积压超过 5 小时,接近填满 Kafka 存储(只有 6 小时的数据保留) ) 并可能导致数据丢失。将数据从 HDFS 卸载到 Amazon S3 使我们能够自由地按需启动独立的瞬态 EMR 集群以执行数据删除,有助于确保从 Kafka 到 Amazon EMR 的持续数据摄取不会因资源不足而不足。这使系统能够每 5 分钟摄取一次数据,并在 2-3 分钟内完成每次 Spark Streaming 读取。使用 EMRFS 的另一个副作用是成本优化的集群,因为我们不再依赖 Amazon Elastic Block Store (Amazon EBS) 卷来存储超过 300 TB 的存储空间,这些存储空间用于 HDFS 数据的三个副本(包括两个副本)。我们现在只需为 Amazon S3 中的一个数据副本付费,它提供 11 个 9 的持久性并且是相对便宜的存储。

使用 Apache Hudi 进行高效删除

并发运行时摄取写入和 GDPR 删除之间的冲突怎么办?这就是 Apache Hudi 的强大之处。

Apache Hudi 为具有事务语义的数据湖提供了一种表格式,可以在并发运行时分离摄取工作负载和更新。该系统能够在不到一分钟的时间内连续删除 1,000 条记录。Apache Hudi 0.7.0 在并发写入方面存在一些限制,但 Amazon EMR 团队通过将支持乐观并发控制的 Apache Hudi 0.8.0 反向移植到当前(当时的 AWS Data Lab 协作)Amazon EMR 6.4 版本。这节省了测试时间,并允许通过最少的测试快速过渡到新版本。这使我们能够直接使用 Athena 快速查询数据,而无需启动集群来运行临时查询,以及使用 Presto、Trino 和 Hive 查询数据。存储层和计算层的解耦提供了灵活性,不仅可以跨不同 EMR 集群查询数据,还可以使用完全独立的瞬态集群删除数据。

使用 Apache Hudi 优化低延迟读取

为优化 Apache Hudi 的低延迟读取,我们需要解决由于数据持续流入数据湖而导致在 Amazon S3 中创建过多小文件的问题。

我们利用 Apache Hudi 的功能来调整文件大小以实现最佳查询。具体来说,我们将 Hudi 中的并行度从默认值 1,500 降低到一个较低的数值。并行度是指用于向Hudi写入数据的线程数;通过减少它,我们能够创建更大的文件,这些文件更适合查询。

因为我们需要针对大容量流式摄取进行优化,所以我们选择为我们的工作负载实施读取表类型合并(而不是写入时复制)。这种表类型使我们能够快速将传入数据提取到行格式 (Avro) 的增量文件中,并将增量文件异步压缩到列式 Parquet 文件中以进行快速读取。为此,我们在后台运行了 Hudi 压缩作业。压缩是合并基于行的增量文件以生成新版本的列文件的过程。因为压缩作业会使用额外的计算资源,所以我们将插入的并行度调整为较低的值 1,000,以解决额外的资源使用问题。此调整使我们能够在不牺牲性能吞吐量的情况下创建更大的文件。

总体而言,我们使用 Apache Hudi 优化低延迟读取的方法使我们能够更好地管理文件大小并提高数据湖的整体性能。

监控

该团队使用 Prometheus(一种开源监控工具)监控 MSK 集群。此外,我们还展示了如何使用 Amazon CloudWatch 指标监控 Spark 流作业。有关更多信息,请参阅在 Amazon EMR 上监控 Spark 流应用程序。

结果

Zoom 与 AWS 数据实验室之间的协作展示了使用 Amazon EMR 和 Apache Hudi 的架构在数据摄取、处理、存储和删除方面的显着改进。该架构的一个主要好处是降低了基础设施成本,这是通过使用云原生技术和有效管理数据存储来实现的。另一个好处是数据管理能力的提高。

我们发现与之前基于 HDFS 的架构相比,EMR 集群的成本可以降低约 82%,同时使存储成本降低约 90%。所有这一切同时使数据在从源头摄取后 5 分钟内在数据湖中可用。同时从包含多个 PB 数据的数据湖中删除数据可以更高效地执行。通过我们的优化方法,我们能够在1-2 分钟内删除大约 1,000 条记录,而之前需要 3 小时或更长时间

结论

总之,日志分析过程涉及从各种来源(例如服务器、应用程序和设备)收集、处理、存储、分析和删除日志数据,对于帮助组织努力满足其服务弹性、安全性和性能监控、故障排除和合规性需求 ,例如 GDPR至关重要。

这篇文章分享了 Zoom 和 AWS 数据实验室团队在解决关键数据管道挑战方面共同取得的成就,并且 Zoom 进一步扩展了解决方案以优化提取、转换和加载 (ETL) 作业和资源效率。但是也可以使用此处介绍的架构模式为其他用例快速构建经济高效且可扩展的解决方案。

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
目录
相关文章
|
8天前
|
存储 监控 安全
实时记录和查看Apache 日志
Apache 是一个开源、跨平台的 Web 服务器,保护其平台需监控活动和事件。Apache 日志分为访问日志和错误日志,分别记录用户请求和服务器错误信息。EventLog Analyzer 是一款强大的日志查看工具,提供集中收集、分析、实时警报和安全监控功能,帮助管理员识别趋势、检测威胁并确保合规性。通过直观的仪表板和自动化响应,它简化了大规模日志管理,增强了 Apache 服务器的安全性和性能。
|
30天前
|
监控 安全 Apache
什么是Apache日志?为什么Apache日志分析很重要?
Apache是全球广泛使用的Web服务器软件,支持超过30%的活跃网站。它通过接收和处理HTTP请求,与后端服务器通信,返回响应并记录日志,确保网页请求的快速准确处理。Apache日志分为访问日志和错误日志,对提升用户体验、保障安全及优化性能至关重要。EventLog Analyzer等工具可有效管理和分析这些日志,增强Web服务的安全性和可靠性。
|
2月前
|
消息中间件 存储 监控
构建高可用性Apache Kafka集群:从理论到实践
【10月更文挑战第24天】随着大数据时代的到来,数据传输与处理的需求日益增长。Apache Kafka作为一个高性能的消息队列服务,因其出色的吞吐量、可扩展性和容错能力而受到广泛欢迎。然而,在构建大规模生产环境下的Kafka集群时,保证其高可用性是至关重要的。本文将从个人实践经验出发,详细介绍如何构建一个高可用性的Kafka集群,包括集群规划、节点配置以及故障恢复机制等方面。
112 4
|
25天前
|
存储 数据采集 监控
云上数据安全保护:敏感日志扫描与脱敏实践详解
随着企业对云服务的广泛应用,数据安全成为重要课题。通过对云上数据进行敏感数据扫描和保护,可以有效提升企业或组织的数据安全。本文主要基于阿里云的数据安全中心数据识别功能进行深入实践探索。通过对商品购买日志的模拟,分析了如何使用阿里云的工具对日志数据进行识别、脱敏(3 种模式)处理和基于 StoreView 的查询脱敏方式,从而在保障数据安全的同时满足业务需求。通过这些实践,企业可以有效降低数据泄漏风险,提升数据治理能力和系统安全性。
云上数据安全保护:敏感日志扫描与脱敏实践详解
|
16天前
|
存储 监控 安全
实时记录和查看Apache 日志
Apache 是一个开源、跨平台的Web服务器,保护其安全依赖于监控活动和分析访问日志。日志分为访问日志和错误日志,前者记录用户请求及响应情况,后者记录服务器错误信息。EventLog Analyzer等工具可集中收集、分析日志,提供直观的仪表板和实时警报,帮助识别趋势、异常和威胁,确保服务器稳定性和安全性,并支持合规管理。
|
16天前
|
存储 监控 安全
网络安全视角:从地域到账号的阿里云日志审计实践
日志审计的必要性在于其能够帮助企业和组织落实法律要求,打破信息孤岛和应对安全威胁。选择 SLS 下日志审计应用,一方面是选择国家网络安全专用认证的日志分析产品,另一方面可以快速帮助大型公司统一管理多组地域、多个账号的日志数据。除了在日志服务中存储、查看和分析日志外,还可通过报表分析和告警配置,主动发现潜在的安全威胁,增强云上资产安全。
|
2月前
|
存储 数据挖掘 数据处理
巴别时代使用 Apache Paimon 构建 Streaming Lakehouse 的实践
随着数据湖技术的发展,企业纷纷探索其优化潜力。本文分享了巴别时代使用 Apache Paimon 构建 Streaming Lakehouse 的实践。Paimon 支持流式和批处理,提供高性能、统一的数据访问和流批一体的优势。通过示例代码和实践经验,展示了如何高效处理实时数据,解决了数据一致性和故障恢复等挑战。
134 61
|
2月前
|
存储 消息中间件 分布式计算
Cisco WebEx 数据平台:统一 Trino、Pinot、Iceberg 及 Kyuubi,探索 Apache Doris 在 Cisco 的改造实践
Cisco WebEx 早期数据平台采用了多系统架构(包括 Trino、Pinot、Iceberg 、 Kyuubi 等),面临架构复杂、数据冗余存储、运维困难、资源利用率低、数据时效性差等问题。因此,引入 Apache Doris 替换了 Trino、Pinot 、 Iceberg 及 Kyuubi 技术栈,依赖于 Doris 的实时数据湖能力及高性能 OLAP 分析能力,统一数据湖仓及查询分析引擎,显著提升了查询性能及系统稳定性,同时实现资源成本降低 30%。
Cisco WebEx 数据平台:统一 Trino、Pinot、Iceberg 及 Kyuubi,探索 Apache Doris 在 Cisco 的改造实践
|
2月前
|
存储 数据采集 监控
云上数据安全保护:敏感日志扫描与脱敏实践详解
随着企业对云服务的广泛应用,数据安全成为重要课题。通过对云上数据进行敏感数据扫描和保护,可以有效提升企业或组织的数据安全。本文主要基于阿里云的数据安全中心数据识别功能进行深入实践探索。通过对商品购买日志的模拟,分析了如何使用阿里云的工具对日志数据进行识别、脱敏(3 种模式)处理和基于 StoreView 的查询脱敏方式,从而在保障数据安全的同时满足业务需求。通过这些实践,企业可以有效降低数据泄漏风险,提升数据治理能力和系统安全性。
|
2月前
|
XML 安全 Java
【日志框架整合】Slf4j、Log4j、Log4j2、Logback配置模板
本文介绍了Java日志框架的基本概念和使用方法,重点讨论了SLF4J、Log4j、Logback和Log4j2之间的关系及其性能对比。SLF4J作为一个日志抽象层,允许开发者使用统一的日志接口,而Log4j、Logback和Log4j2则是具体的日志实现框架。Log4j2在性能上优于Logback,推荐在新项目中使用。文章还详细说明了如何在Spring Boot项目中配置Log4j2和Logback,以及如何使用Lombok简化日志记录。最后,提供了一些日志配置的最佳实践,包括滚动日志、统一日志格式和提高日志性能的方法。
569 31
【日志框架整合】Slf4j、Log4j、Log4j2、Logback配置模板

推荐镜像

更多