日志数据采集与大数据存储方案实践

本文涉及的产品
对象存储 OSS,20GB 3个月
对象存储 OSS,内容安全 1000次 1年
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 互联网及企业客户业务系统有大量的埋点日志数据实时生成,这些日志数据往往需要长期保存并有离线计算或者实时计算的需求。本文为您介绍日志数据采集与大数据存储实践方案。

互联网及企业客户业务系统有大量的埋点日志数据实时生成,这些日志数据往往需要长期保存并有离线计算或者实时计算的需求。本文为您介绍日志数据采集与大数据存储实践方案。

背景

一些客户会选择将日志数据存储在自建的HDFS中,使用flume、kafka等中间件作为数据通道进行采集传输,由spark等大数据引擎做进一步的加工处理,然后与一些BI系统集成做分析展示。很多用户在使用这套架构过程中面临显著的痛点。

  • 日志数据分散,无法形成具备实时查询、离线分析、统一监控告警的日志中枢平台。

  • 当hadoop集群较大时,文件量级达到数亿以上时,namenode 性能会成为一个潜在的瓶颈点。

  • HDFS往往采用3副本的方式创建,存储空间利用率低。

  • 80%左右的数据为温冷数据,HDFS集群缺少自动化的冷热分层机制

  • 容灾备份困难,一但集群挂掉意味着数据全部丢失。如果构建数据容灾集群,需要在另一个机房搭建同样的一套hadoop集群。

  • Hadoop架构迭代难,兼容性很差,业务低谷时计算资源利用率低,缺少弹性,需要进行村算分离改造。

优化步骤1:存算分离改造,数据写入OSS数据湖(兼容原有自建flume、kafka等)

兼容原有自建flume、kafka架构,可以通过flume将数据写入OSS,以OSS数据湖为存储核心,实现存算分离。阿里云OSS支持原生的OSS-HDFS接口,通过OSS-HDFS服务,无需对现有的Hadoop、Spark大数据分析应用做任何修改即可实原生的HDFS协议兼容。OSS对象存储作为大数据存算分离方案的核心存储方案,在元数据操作管理能力上深度优化,为大数据场景提供海量数据的存储管理能力、超高的吞吐带宽性能,解决用户自建HDFS存储的扩展性瓶颈和管理难题。

OSS支持多种数据源的写入,也可以和阿里云EMR Jindo FS SDK集成来对接中间件的数据接入。OSS存储支持海量的数据存储,高达Tbps级别的吞吐能力,可以避免HDFS的Namenode性能瓶颈问题。此架构优势如下:

  • 高可靠 OSS可以提供高达12个9的数据可靠性,保障数据不丢不坏,通过开通多版本和跨区域复制,可以进一步实现数据的备份和容灾。

  • 兼容性原生HDFS OSS支持原生的OSS-HDFS接口,用户无需改造即可实原生的HDFS协议兼容,OSS可以无缝对接客户自建开源的 spark、hive 等引擎。

  • 成本节约 OSS采用了纠删码机制,相比自建HDFS可以实现大幅的成本节约。OSS的生命周期管理策略,可以将用户访问不频繁数据转入低频存储,将需要长期保存的冷数据自动转入归档类型存储。

  • 完善的生命周期管理 OSS通过生命周期策略实现数据冷热分层,整体存储成本大幅降低。并且JindoFS与OSS生命周期进行了集成,在Hadoop端即可以进行存储类型指定以及冷数据解冻。

日志采集

数据写入及数据迁移工具支持--EMR JindoFS

JindoFS SDK是一个简单易用面向Hadoop/Spark生态的OSS客户端,为阿里云OSS提供高度优化的Hadoop FileSystem,提升了用户的现有架构软件版本的兼容性。 Jindo DistCp(分布式文件拷贝工具)是用于大规模集群内部和集群之间拷贝文件的工具, 它使用MapReduce实现文件分发,错误处理和恢复,支持hdfs->OSS,hdfs->hdfs,OSS->hdfs,OSS->OSS的数据拷贝场景,提供多种个性化拷贝参数和策略。重点优化了hdfs到OSS的数据拷贝,通过定制化CopyCommitter,实现No-Rename拷贝,提高数据copy性能并保证数据拷贝落地的一致性。 Jindo DistCp vs Hadoop DistCp 性能测试对于table 类型数仓数据,可以使用阿里云专为迁移数仓数据而设计的MoveTo 工具。MoveTo底层调用了jindo distcp,当拷贝成功后自动更新 Metastore 元数据,实现完整的迁移过程。对于分区表,该工具支持分区过滤表达式,可实现大量分区的同时拷贝,支持设置存储类型、覆盖写等选项,满足多种需求。Jindo SDK与OSS无缝兼容,可以在竞争中带来技术差异化上的补充。

优化步骤2:使用日志服务SLS进行数据采集及投递OSS

对于日志数据的采集、处理和分析的场景,阿里云日志服务(SLS)是一款性能优越、易用性强,并且具有较低成本的产品,使用日志服务SLS替代flume作为数据管道以及通过日志服务进行数据加工清洗的方案具有诸多优势。

  • SLS支持包括服务器与应用、开源软件、物联网、移动端、标准协议、阿里云产品等多种来源在内的可观测数据(Log/Metric/Trace)的统一采集存储。支持40+成熟接入方案,支持包括服务器与应用、开源软件、物联网、移动端、标准协议、阿里云产品等在内的多端采集。

  • 使用日志服务替代用户自建ES,可以形成统一的日志采集、分析、计算的日志统一中枢平台。日志服务采集数据后可以直接进行实时的查询、BI、数据加工、报表等,日志服务提供了成熟完善的AIOPS方案,帮助用户打造智能运维平台。

  • 在实时计算场景日志服务可以对接实时计算引擎进行消费

  • 离线计算场景日志服务可以将数据投递到OSS,通过OSS-HDFS原生HDFS协议打通离线计算生态体系。日志服务数据采集

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
2月前
|
Rust 前端开发 JavaScript
Tauri 开发实践 — Tauri 日志记录功能开发
本文介绍了如何为 Tauri 应用配置日志记录。Tauri 是一个利用 Web 技术构建桌面应用的框架。文章详细说明了如何在 Rust 和 JavaScript 代码中设置和集成日志记录,并控制日志输出。通过添加 `log` crate 和 Tauri 日志插件,可以轻松实现多平台日志记录,包括控制台输出、Webview 控制台和日志文件。文章还展示了如何调整日志级别以优化输出内容。配置完成后,日志记录功能将显著提升开发体验和程序稳定性。
129 1
Tauri 开发实践 — Tauri 日志记录功能开发
|
11天前
|
存储 数据采集 监控
云上数据安全保护:敏感日志扫描与脱敏实践详解
随着企业对云服务的广泛应用,数据安全成为重要课题。通过对云上数据进行敏感数据扫描和保护,可以有效提升企业或组织的数据安全。本文主要基于阿里云的数据安全中心数据识别功能进行深入实践探索。通过对商品购买日志的模拟,分析了如何使用阿里云的工具对日志数据进行识别、脱敏(3 种模式)处理和基于 StoreView 的查询脱敏方式,从而在保障数据安全的同时满足业务需求。通过这些实践,企业可以有效降低数据泄漏风险,提升数据治理能力和系统安全性。
云上数据安全保护:敏感日志扫描与脱敏实践详解
|
2天前
|
存储 监控 安全
网络安全视角:从地域到账号的阿里云日志审计实践
日志审计的必要性在于其能够帮助企业和组织落实法律要求,打破信息孤岛和应对安全威胁。选择 SLS 下日志审计应用,一方面是选择国家网络安全专用认证的日志分析产品,另一方面可以快速帮助大型公司统一管理多组地域、多个账号的日志数据。除了在日志服务中存储、查看和分析日志外,还可通过报表分析和告警配置,主动发现潜在的安全威胁,增强云上资产安全。
|
29天前
|
存储 消息中间件 分布式计算
Cisco WebEx 数据平台:统一 Trino、Pinot、Iceberg 及 Kyuubi,探索 Apache Doris 在 Cisco 的改造实践
Cisco WebEx 早期数据平台采用了多系统架构(包括 Trino、Pinot、Iceberg 、 Kyuubi 等),面临架构复杂、数据冗余存储、运维困难、资源利用率低、数据时效性差等问题。因此,引入 Apache Doris 替换了 Trino、Pinot 、 Iceberg 及 Kyuubi 技术栈,依赖于 Doris 的实时数据湖能力及高性能 OLAP 分析能力,统一数据湖仓及查询分析引擎,显著提升了查询性能及系统稳定性,同时实现资源成本降低 30%。
Cisco WebEx 数据平台:统一 Trino、Pinot、Iceberg 及 Kyuubi,探索 Apache Doris 在 Cisco 的改造实践
|
23天前
|
监控 测试技术 开发者
一行代码改进:Logtail的多行日志采集性能提升7倍的奥秘
一个有趣的现象引起了作者的注意:当启用行首正则表达式处理多行日志时,采集性能出现下降。究竟是什么因素导致了这种现象?本文将探索Logtail多行日志采集性能提升的秘密。
|
1月前
|
存储 数据采集 监控
云上数据安全保护:敏感日志扫描与脱敏实践详解
随着企业对云服务的广泛应用,数据安全成为重要课题。通过对云上数据进行敏感数据扫描和保护,可以有效提升企业或组织的数据安全。本文主要基于阿里云的数据安全中心数据识别功能进行深入实践探索。通过对商品购买日志的模拟,分析了如何使用阿里云的工具对日志数据进行识别、脱敏(3 种模式)处理和基于 StoreView 的查询脱敏方式,从而在保障数据安全的同时满足业务需求。通过这些实践,企业可以有效降低数据泄漏风险,提升数据治理能力和系统安全性。
|
1月前
|
存储 算法 固态存储
大数据分区优化存储成本
大数据分区优化存储成本
37 4
|
2月前
|
Web App开发 存储 监控
iLogtail 开源两周年:UC 工程师分享日志查询服务建设实践案例
本文为 iLogtail 开源两周年的实践案例分享,讨论了 iLogtail 作为日志采集工具的优势,包括它在性能上超越 Filebeat 的能力,并通过一系列优化解决了在生产环境中替换 Filebeat 和 Logstash 时遇到的挑战。
139 12
|
1月前
|
边缘计算 人工智能 搜索推荐
大数据与零售业:精准营销的实践
【10月更文挑战第31天】在信息化社会,大数据技术正成为推动零售业革新的重要驱动力。本文探讨了大数据在零售业中的应用,包括客户细分、个性化推荐、动态定价、营销自动化、预测性分析、忠诚度管理和社交网络洞察等方面,通过实际案例展示了大数据如何帮助商家洞悉消费者行为,优化决策,实现精准营销。同时,文章也讨论了大数据面临的挑战和未来展望。
|
1月前
|
消息中间件 存储 监控
微服务日志监控的挑战及应对方案
【10月更文挑战第23天】微服务化带来模块独立与快速扩展,但也使得日志监控复杂。日志作用包括业务记录、异常追踪和性能定位。