带你读《Apache Doris 案例集》——06 Apache Doris 助力中国联通万亿日志数据分析提速10倍(1)

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
Redis 开源版,标准版 2GB
推荐场景:
搭建游戏排行榜
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
简介: 带你读《Apache Doris 案例集》——06 Apache Doris 助力中国联通万亿日志数据分析提速10倍(1)

作者:联通西部创新研究院大数据开发工程师,刘宇麒、贾涛

 

导读:在数据安全管理体系的背后,离不开对安全日志数据的存储与分析。以终端设备为例,中国联通每天会产生百亿级别的日志数据,对于保障网络安全、提高系统稳定性和可靠性具有至关重要的作用。目前,Apache Doris 在联通体系的落地已支持了30多条业务线和数百个实时作业,不仅帮助联通实现了万亿级安全日志的高效分析和低成本,也为其他运营商提供了成功的参考案例和学习经验,对推动运营商的数字化转型进程具有重要意义。

 

联通西部创新研究院是中国联通在西部地区布局的重要载体,也是中国联通数字化创新能力体系的重要组成部分,承载了集团公司科技创新体系和数字化创新体系的需求。依托联通数科的优质资源及能力底座,在云计算、大数据、物联网、人工智能、网络安全等业务领域具备深厚的技术能力和丰富的项目经验。

 

近些年来,网络高危漏洞数量的增长、DDoS攻击比例的提升、恶意 Bot流量的持续上升使得Web 安全威胁态势愈发严峻,而数字化转型进程的推进在丰富业务创新的同时、也提升了网络空间复杂度、进一步加剧了网络安全风险。这样的背景之下,联通以攻防实战对抗为目标、进行国家级网络空间的安全治理工作,围绕---构建了多级综合防控体系,聚焦于实时监测、攻击溯源、通报预警、应急处置、情报共享等工作,构建数据全生命周期安全管理体系,为客户提供从顶层设计到运营维护一站式服务。

 

在数据安全管理体系的背后,离不开对安全日志数据的存储与分析。以终端设备为例,每天会产生海量的设备日志,这些日志数据记录着各种网络时间和系统操作的细节信息,对于保障网络安全、提高系统稳定性和可靠性具有至关重要的作用。为了更好的管理和分析安全日志数据,联通西部创新研究院应集团要求构建一个集中化日志数据分析平台,满足对事件和日志数据自动化采集、存储、管理、分析和可视化的诉求。这要求集中化数据分析平台具备以下能力:

 

建模分析:基于网络日志数据和告警数据进行规则或智能挖掘,发现潜在的安全事件,例如钓鱼邮件、非法访问等,并进行定向威胁感知。

 

态势大屏:通过多种维度不同监控指标的组合,例如安全事件TOP5等,密切监控当前网络安全态势状况,通过态势大屏呈现攻击威胁的主要分布。

 

追踪溯源:通过对安全事件的快速研判,还原整个攻击链条进行精准的溯源取证,从而保障网络和数据安全。

 

为搭建具备上述能力的集中化日志数据分析平台,在正式搭建之前,结合日志数据的特性及业务要求,我们需要综合考虑考虑如何满足以下要求,以确保平台能高效的支持联通日志分析场景的实际应用:

 

数据接入方面:日志数据具有种类繁多、格式多样化、规模庞大等特点,要求数据平台支持多种日志格式数据的导入,并支持高性能的数据写入。

 

实时性要求方面:为及时监控和了解系统运营情况和存在的问题,高实时性对于数据平台非常关键。这要求平台要实时进行数据同步,保障数据的一致性,并支持数据实时查询,以便获取最新的系统和业务状态。

 

可扩展要求方面:数据平台需要具备计算与存储的拓展能力,以便满足集团及分公司不断增长的数据处理分析需求。

 

在中国联通安全日志数据分析平台的迭代过程中,经历了从基于 Hive 的离线数据仓库到以Apache  Doris为核心的实时数据仓库。从具体业务收益来讲,Apahce  Doris的引入支持了联通30+条业务线和数百个实时作业,为联通带来了存储资源节约50%、百亿级别数据查询秒级响应、数据导入效率提升60%的显著成果,成功实现了降本增效的业务目标;从集团整体价值来通过该平台,联通可以更好地监控运营状态、保障网络安全,为运营商安全管理体系提供了重要的底层支持。总而言之,ApacheDoris在联通体系的落地,不仅帮助联通实现了万亿级安全日志的高效分析和低成本,也为其他运营商提供了成功的参考案例和学习经验,对运营商数字化转型进程的推进有着重要作用。

 

基于Hive的离线数据仓库 

 

在项目一期建设中,我们以Apache Hive 为核心建立了离线数仓,并在其此础上进行了数据仓库分层。当原始数据经过数据采集进入离线数仓后,由 Spark  逐层进行处理,并配合Apache DolphinScheduler 以分钟级调度执行计算作业,最终将数据输出至OLAP  和应用数据库。 

 image.png

 从业务的角度来看,该架构数据流的痛点问题在于数据实时性不足,主要受限于 Hive  的离线批

处理模式,端到端的延迟最短竟然需要10分钟。

 

 构 中ClickHouseOLAP  引擎,但在实际使用场景中发现

ClickHouse 存在以下不足:

 

ClickHouse 并发支持能力不足,无法满足业务需求,例如实时大屏指标的计算与加载缓慢,经常会在业务高峰期出现查询超时。

 

业务中有大量安全事件表需要进行多表 Join, 这些表数据量较大,而Clickhouse 在分布式Join 实现性能较低,时常会出现OOM  问题,为避免该情况发生,常常需要依赖宽表才能缓解,而这既影响了业务的稳定性,也增加了许多额外的维护成本。 

 

由于 ClickHouse 对于数据更新操作支持较弱、更新性能较差,这也限制了它在某些场景下的应用。

 

ClickHouse  使用和运维成本较高,也给我们带来了更高的人工投入成本。 

 

系统选型及落地 

 

随着一期架构问题的逐步暴露,我们迫切需要对数据分析平台进行更新迭代。对于二期建设来说,提升数据的实时性被确立为首要目标,为了实现这一目标,我们计划增加实时数据处理链路,以更好地实现数据的实时收集、处理和查询要求,为系统稳定和网络安全提供更有力的支持和保障。其次,为解决一期平台存在的并发能力不足、多表Join 性能低等核心问题,提升OLAP 引擎性能成为二期建设的的另关键目标,因此亟需对期平台中 OLAP  引擎ClickHouse 进行替换,以满足业务侧日益严格的数据分析和处理需求。

 

在此背景下,我们考虑是否可以只选择一个新的实时数据仓库同时满足以上两个目标,一方面即能帮助我们构建实时数据分析处理链路,另一方面又可以作为性能更强悍、更易用OLAP 析引擎,这样不仅可以简化数据处理流程、提高实时效率,而且可以降低平台运维管理的成本。

 

为了找到符合条件的数据库,我们进行了多方调研和对比研究,最终选择以 Apache  Doris 为核心来构建统一的实时数据仓库体系。为了直观展示 Apache  Doris 的性能和功能特点,我们使用Apache  Doris 与 ClickHouse 进行了对比,其中最直观的感受是 Apache  Doris 在系统并发、Join 性能以及多个功能的易用性都更为领先。  image.png 

更多精彩内容,欢迎观看:

带你读《Apache Doris 案例集》——06 Apache   Doris  助力中国联通万亿日志数据分析提速10倍(2):https://developer.aliyun.com/article/1405719

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
相关文章
|
14天前
|
监控 安全 Apache
什么是Apache日志?为什么Apache日志分析很重要?
Apache是全球广泛使用的Web服务器软件,支持超过30%的活跃网站。它通过接收和处理HTTP请求,与后端服务器通信,返回响应并记录日志,确保网页请求的快速准确处理。Apache日志分为访问日志和错误日志,对提升用户体验、保障安全及优化性能至关重要。EventLog Analyzer等工具可有效管理和分析这些日志,增强Web服务的安全性和可靠性。
|
1月前
|
消息中间件 数据挖掘 Kafka
Apache Kafka流处理实战:构建实时数据分析应用
【10月更文挑战第24天】在当今这个数据爆炸的时代,能够快速准确地处理实时数据变得尤为重要。无论是金融交易监控、网络行为分析还是物联网设备的数据收集,实时数据处理技术都是不可或缺的一部分。Apache Kafka作为一款高性能的消息队列系统,不仅支持传统的消息传递模式,还提供了强大的流处理能力,能够帮助开发者构建高效、可扩展的实时数据分析应用。
91 5
|
2天前
|
SQL 存储 数据处理
别让你的CPU打盹儿:Apache Doris并行执行原理大揭秘!
别让你的CPU打盹儿:Apache Doris并行执行原理大揭秘!
21 1
别让你的CPU打盹儿:Apache Doris并行执行原理大揭秘!
|
3天前
|
机器学习/深度学习 数据采集 DataWorks
数据分析经典案例重现:使用DataWorks Notebook 实现Kaggle竞赛之房价预测,成为数据分析大神!
Python是目前当之无愧的数据分析第一语言,大量的数据科学家使用Python来完成各种各样的数据科学任务。本文以Kaggle竞赛中的房价预测为例,结合DataWorks Notebook,完成数据加载、数据探索、数据可视化、数据清洗、特征分析、特征处理、机器学习、回归预测等步骤,主要Python工具是Pandas和SKLearn。本文中仅仅使用了线性回归这一最基本的机器学习模型,读者可以自行尝试其他更加复杂模型,比如随机森林、支持向量机、XGBoost等。
|
27天前
|
存储 消息中间件 分布式计算
Cisco WebEx 数据平台:统一 Trino、Pinot、Iceberg 及 Kyuubi,探索 Apache Doris 在 Cisco 的改造实践
Cisco WebEx 早期数据平台采用了多系统架构(包括 Trino、Pinot、Iceberg 、 Kyuubi 等),面临架构复杂、数据冗余存储、运维困难、资源利用率低、数据时效性差等问题。因此,引入 Apache Doris 替换了 Trino、Pinot 、 Iceberg 及 Kyuubi 技术栈,依赖于 Doris 的实时数据湖能力及高性能 OLAP 分析能力,统一数据湖仓及查询分析引擎,显著提升了查询性能及系统稳定性,同时实现资源成本降低 30%。
Cisco WebEx 数据平台:统一 Trino、Pinot、Iceberg 及 Kyuubi,探索 Apache Doris 在 Cisco 的改造实践
|
17天前
|
SQL 存储 Apache
Apache Doris 3.0.3 版本正式发布
亲爱的社区小伙伴们,Apache Doris 3.0.3 版本已于 2024 年 12 月 02 日正式发布。该版本进一步提升了系统的性能及稳定性,欢迎大家下载体验。
|
1月前
|
存储 SQL Apache
Apache Doris 开源最顶级基于MPP架构的高性能实时分析数据库
Apache Doris 是一个基于 MPP 架构的高性能实时分析数据库,以其极高的速度和易用性著称。它支持高并发点查询和复杂分析场景,适用于报表分析、即席查询、数据仓库和数据湖查询加速等。最新发布的 2.0.2 版本在性能、稳定性和多租户支持方面有显著提升。社区活跃,已广泛应用于电商、广告、用户行为分析等领域。
Apache Doris 开源最顶级基于MPP架构的高性能实时分析数据库
|
1月前
|
SQL 存储 数据处理
兼顾高性能与低成本,浅析 Apache Doris 异步物化视图原理及典型场景
Apache Doris 物化视图进行了支持。**早期版本中,Doris 支持同步物化视图;从 2.1 版本开始,正式引入异步物化视图,[并在 3.0 版本中完善了这一功能](https://www.selectdb.com/blog/1058)。**
|
1月前
|
SQL 存储 Java
Apache Doris 2.1.7 版本正式发布
亲爱的社区小伙伴们,**Apache Doris 2.1.7 版本已于 2024 年 11 月 10 日正式发布。**2.1.7 版本持续升级改进,同时在湖仓一体、异步物化视图、半结构化数据管理、查询优化器、执行引擎、存储管理、以及权限管理等方面完成了若干修复。欢迎大家下载使用。
|
1月前
|
监控 Cloud Native BI
8+ 典型分析场景,25+ 标杆案例,Apache Doris 和 SelectDB 精选案例集(2024版)电子版上线
飞轮科技正式推出 Apache Doris 和 SelectDB 精选案例集 ——《走向现代化的数据仓库(2024 版)》,汇聚了来自各行各业的成功案例与实践经验。该书以行业为划分标准,辅以使用场景标签,旨在为读者提供一个高度整合、全面涵盖、分类清晰且易于查阅的学习资源库。

推荐镜像

更多