带你读《Apache Doris 案例集》——06 Apache Doris 助力中国联通万亿日志数据分析提速10倍(1)

本文涉及的产品
云原生数据库 PolarDB MySQL 版,Serverless 5000PCU 100GB
云数据库 Redis 版,社区版 2GB
推荐场景:
搭建游戏排行榜
云数据库 RDS MySQL,集群版 2核4GB 100GB
推荐场景:
搭建个人博客
简介: 带你读《Apache Doris 案例集》——06 Apache Doris 助力中国联通万亿日志数据分析提速10倍(1)

作者:联通西部创新研究院大数据开发工程师,刘宇麒、贾涛

 

导读:在数据安全管理体系的背后,离不开对安全日志数据的存储与分析。以终端设备为例,中国联通每天会产生百亿级别的日志数据,对于保障网络安全、提高系统稳定性和可靠性具有至关重要的作用。目前,Apache Doris 在联通体系的落地已支持了30多条业务线和数百个实时作业,不仅帮助联通实现了万亿级安全日志的高效分析和低成本,也为其他运营商提供了成功的参考案例和学习经验,对推动运营商的数字化转型进程具有重要意义。

 

联通西部创新研究院是中国联通在西部地区布局的重要载体,也是中国联通数字化创新能力体系的重要组成部分,承载了集团公司科技创新体系和数字化创新体系的需求。依托联通数科的优质资源及能力底座,在云计算、大数据、物联网、人工智能、网络安全等业务领域具备深厚的技术能力和丰富的项目经验。

 

近些年来,网络高危漏洞数量的增长、DDoS攻击比例的提升、恶意 Bot流量的持续上升使得Web 安全威胁态势愈发严峻,而数字化转型进程的推进在丰富业务创新的同时、也提升了网络空间复杂度、进一步加剧了网络安全风险。这样的背景之下,联通以攻防实战对抗为目标、进行国家级网络空间的安全治理工作,围绕---构建了多级综合防控体系,聚焦于实时监测、攻击溯源、通报预警、应急处置、情报共享等工作,构建数据全生命周期安全管理体系,为客户提供从顶层设计到运营维护一站式服务。

 

在数据安全管理体系的背后,离不开对安全日志数据的存储与分析。以终端设备为例,每天会产生海量的设备日志,这些日志数据记录着各种网络时间和系统操作的细节信息,对于保障网络安全、提高系统稳定性和可靠性具有至关重要的作用。为了更好的管理和分析安全日志数据,联通西部创新研究院应集团要求构建一个集中化日志数据分析平台,满足对事件和日志数据自动化采集、存储、管理、分析和可视化的诉求。这要求集中化数据分析平台具备以下能力:

 

建模分析:基于网络日志数据和告警数据进行规则或智能挖掘,发现潜在的安全事件,例如钓鱼邮件、非法访问等,并进行定向威胁感知。

 

态势大屏:通过多种维度不同监控指标的组合,例如安全事件TOP5等,密切监控当前网络安全态势状况,通过态势大屏呈现攻击威胁的主要分布。

 

追踪溯源:通过对安全事件的快速研判,还原整个攻击链条进行精准的溯源取证,从而保障网络和数据安全。

 

为搭建具备上述能力的集中化日志数据分析平台,在正式搭建之前,结合日志数据的特性及业务要求,我们需要综合考虑考虑如何满足以下要求,以确保平台能高效的支持联通日志分析场景的实际应用:

 

数据接入方面:日志数据具有种类繁多、格式多样化、规模庞大等特点,要求数据平台支持多种日志格式数据的导入,并支持高性能的数据写入。

 

实时性要求方面:为及时监控和了解系统运营情况和存在的问题,高实时性对于数据平台非常关键。这要求平台要实时进行数据同步,保障数据的一致性,并支持数据实时查询,以便获取最新的系统和业务状态。

 

可扩展要求方面:数据平台需要具备计算与存储的拓展能力,以便满足集团及分公司不断增长的数据处理分析需求。

 

在中国联通安全日志数据分析平台的迭代过程中,经历了从基于 Hive 的离线数据仓库到以Apache  Doris为核心的实时数据仓库。从具体业务收益来讲,Apahce  Doris的引入支持了联通30+条业务线和数百个实时作业,为联通带来了存储资源节约50%、百亿级别数据查询秒级响应、数据导入效率提升60%的显著成果,成功实现了降本增效的业务目标;从集团整体价值来通过该平台,联通可以更好地监控运营状态、保障网络安全,为运营商安全管理体系提供了重要的底层支持。总而言之,ApacheDoris在联通体系的落地,不仅帮助联通实现了万亿级安全日志的高效分析和低成本,也为其他运营商提供了成功的参考案例和学习经验,对运营商数字化转型进程的推进有着重要作用。

 

基于Hive的离线数据仓库 

 

在项目一期建设中,我们以Apache Hive 为核心建立了离线数仓,并在其此础上进行了数据仓库分层。当原始数据经过数据采集进入离线数仓后,由 Spark  逐层进行处理,并配合Apache DolphinScheduler 以分钟级调度执行计算作业,最终将数据输出至OLAP  和应用数据库。 

 image.png

 从业务的角度来看,该架构数据流的痛点问题在于数据实时性不足,主要受限于 Hive  的离线批

处理模式,端到端的延迟最短竟然需要10分钟。

 

 构 中ClickHouseOLAP  引擎,但在实际使用场景中发现

ClickHouse 存在以下不足:

 

ClickHouse 并发支持能力不足,无法满足业务需求,例如实时大屏指标的计算与加载缓慢,经常会在业务高峰期出现查询超时。

 

业务中有大量安全事件表需要进行多表 Join, 这些表数据量较大,而Clickhouse 在分布式Join 实现性能较低,时常会出现OOM  问题,为避免该情况发生,常常需要依赖宽表才能缓解,而这既影响了业务的稳定性,也增加了许多额外的维护成本。 

 

由于 ClickHouse 对于数据更新操作支持较弱、更新性能较差,这也限制了它在某些场景下的应用。

 

ClickHouse  使用和运维成本较高,也给我们带来了更高的人工投入成本。 

 

系统选型及落地 

 

随着一期架构问题的逐步暴露,我们迫切需要对数据分析平台进行更新迭代。对于二期建设来说,提升数据的实时性被确立为首要目标,为了实现这一目标,我们计划增加实时数据处理链路,以更好地实现数据的实时收集、处理和查询要求,为系统稳定和网络安全提供更有力的支持和保障。其次,为解决一期平台存在的并发能力不足、多表Join 性能低等核心问题,提升OLAP 引擎性能成为二期建设的的另关键目标,因此亟需对期平台中 OLAP  引擎ClickHouse 进行替换,以满足业务侧日益严格的数据分析和处理需求。

 

在此背景下,我们考虑是否可以只选择一个新的实时数据仓库同时满足以上两个目标,一方面即能帮助我们构建实时数据分析处理链路,另一方面又可以作为性能更强悍、更易用OLAP 析引擎,这样不仅可以简化数据处理流程、提高实时效率,而且可以降低平台运维管理的成本。

 

为了找到符合条件的数据库,我们进行了多方调研和对比研究,最终选择以 Apache  Doris 为核心来构建统一的实时数据仓库体系。为了直观展示 Apache  Doris 的性能和功能特点,我们使用Apache  Doris 与 ClickHouse 进行了对比,其中最直观的感受是 Apache  Doris 在系统并发、Join 性能以及多个功能的易用性都更为领先。  image.png 

更多精彩内容,欢迎观看:

带你读《Apache Doris 案例集》——06 Apache   Doris  助力中国联通万亿日志数据分析提速10倍(2):https://developer.aliyun.com/article/1405719

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
相关文章
|
11天前
|
数据采集 存储 数据挖掘
【优秀python数据分析案例】基于Python书旗网小说网站数据采集与分析的设计与实现
本文介绍了一个基于Python的书旗网小说网站数据采集与分析系统,通过自动化爬虫收集小说数据,利用Pandas进行数据处理,并通过Matplotlib和Seaborn等库进行数据可视化,旨在揭示用户喜好和市场趋势,为图书出版行业提供决策支持。
【优秀python数据分析案例】基于Python书旗网小说网站数据采集与分析的设计与实现
|
11天前
|
数据采集 数据可视化 关系型数据库
【优秀python 数据分析案例】基于python的穷游网酒店数据采集与可视化分析的设计与实现
本文介绍了一个基于Python的穷游网酒店数据采集与可视化分析系统,通过爬虫技术自动抓取酒店信息,并利用数据分析算法和可视化工具,提供了全国主要城市酒店的数量、星级、价格、评分等多维度的深入洞察,旨在为旅行者和酒店经营者提供决策支持。
【优秀python 数据分析案例】基于python的穷游网酒店数据采集与可视化分析的设计与实现
|
17天前
|
存储 数据挖掘 Apache
Apache Doris + Iceberg 快速搭建指南|Lakehouse 使用手册(三)
如何在 Docker 环境下快速搭建 Apache Doris + Apache Iceberg 测试 & 演示环境,并展示各功能的使用操作
Apache Doris + Iceberg 快速搭建指南|Lakehouse 使用手册(三)
|
4天前
|
存储 Ubuntu Apache
如何在 Ubuntu VPS 上配置 Apache 的日志记录和日志轮转
如何在 Ubuntu VPS 上配置 Apache 的日志记录和日志轮转
15 6
|
11天前
|
数据采集 数据可视化 数据挖掘
【优秀python案例】基于python爬虫的深圳房价数据分析与可视化实现
本文通过Python爬虫技术从链家网站爬取深圳二手房房价数据,并进行数据清洗、分析和可视化,提供了房价走势、区域房价比较及房屋特征等信息,旨在帮助购房者更清晰地了解市场并做出明智决策。
|
11天前
|
数据采集 存储 数据可视化
【优秀python数据分析案例】基于python的中国天气网数据采集与可视化分析的设计与实现
本文介绍了一个基于Python的中国天气网数据采集与可视化分析系统,通过requests和BeautifulSoup库实现数据爬取,利用matplotlib、numpy和pandas进行数据可视化,提供了温湿度变化曲线、空气质量图、风向雷达图等分析结果,有效预测和展示了未来天气信息。
|
1月前
|
SQL 存储 关系型数据库
计算效率提升 30 倍、存储资源节省 90%,雨润集团基于 Apache Doris 的统一实时数据仓库建设实践
数字化转型的浪潮中,高效准确的数据分析能够帮助雨润集团快速洞察市场动态、优化供应链管理、提高生产效率。雨润集团引入了 Apache Doris 构建了统一实时数据仓库,实现了计算效率提升 30 倍、存储资源节省 90%、成本降低超 100 万、人员效率提升 3 倍,为智能化、高效化转型指明了方向。
计算效率提升 30 倍、存储资源节省 90%,雨润集团基于 Apache Doris 的统一实时数据仓库建设实践
|
13天前
|
数据采集 数据可视化 算法
基于Python flask的boss直聘数据分析与可视化系统案例,能预测boss直聘某个岗位某个城市的薪资
本文介绍了一个基于Python Flask框架的Boss直聘数据分析与可视化系统,系统使用selenium爬虫、MySQL和csv进行数据存储,通过Pandas和Numpy进行数据处理分析,并采用模糊匹配算法进行薪资预测。
基于Python flask的boss直聘数据分析与可视化系统案例,能预测boss直聘某个岗位某个城市的薪资
|
25天前
|
SQL Apache 流计算
Apache Doris + Paimon 快速搭建指南|Lakehouse 使用手册(二)
为大家介绍 Lakehouse 使用手册(二)之 Apache Doris + Apache Paimon 搭建指南。
|
25天前
|
SQL JSON Apache
Apache Doris 2.1.5 版本正式发布
在湖仓一体、多表物化视图、半结构化数据分析等方面进行了全面更新及改进,同时在倒排索引、查询优化器、查询引擎、存储管理等 10 余方向上完成了若干问题修复

热门文章

最新文章

推荐镜像

更多