WOT2016黄慧攀:海量日志处理可以不用Hadoop或Spark

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介:

如今,随着云计算、移动互联网、物联网、大数据等技术的快速发展,企业逐渐认识到,数据的价值,对数据的挖掘分析能力已经成为企业的核心竞争力。对于互联网企业,最有价值的数据都蕴藏在网站的日志中。从日志中,我们可以知道网站的访问量,应用的使用量、用户的相关数据,使用偏好等关键信息,从而更好的改善服务质量,更好的满足用户的需求。

但是随着企业的用户规模不断扩大,以及数据量的爆炸式增长,日志的管理和分析变得越来越具有挑战性。近日,51CTO记者采访了【WOT2016互联网运维与开发者峰会】特邀讲师,又拍云CTO黄慧攀,就海量日志处理系统架构进行探讨。

黄慧攀是2010年加入又拍云,现任又拍云 CTO。他是 aLiLua Web 开发框架的作者,拥有 14 年互联网从业经验,技术经验涵盖范围比较广,早期以前端 Web 开发为主,后期逐步转到底层研发方向,在高性能网络服务、分布式存储系统等方面有较深入的研究。随着公司发展,团队不断扩大,相应职责细分,目前主要做技术规划和团队建设的工作。

黄慧攀此次将会在WOT 2016互联网运维与开发者峰会上带来主题为《海量日志处理系统架构》的演讲。那么海量日志对于企业来说为何如此重要呢?黄慧攀认为,日志的可挖掘价值确实非常多,比如广告领域可以通过日志回溯到某个具体的用户对什么产品或服务感兴趣,从而驱动给该用户投放什么类型的广告。这也是现在很热门的大数据领域中很重要的一项。而日志对于又拍云来说,重点是在分析平台整体性能,并在这些数据的基础上做系统优化。另外一个部分则是为给客户提供便利而做的统计分析工作。

那么在信息爆炸的时代,处理海量日志的挑战又有哪些呢?海量日志的日志数据量非常大,大到单台服务器无法存储和处理的量级。目前,又拍云现在每天收集到的访问日志就超过4TB的压缩数据,如果解压出来高达120TB文本数据。黄慧攀表示,处理如此庞大的数据量确实面临很多挑战,光收集存储这些原始日志都会成为问题,后续的处理和统计的难度就更大了。

现在,业界在处理海量日志采用比较流行的Hadoop或Spark等分布式计算系统,这样的开源技术无需考虑系统架构。黄慧攀强调,如果要针对特定的业务场景,企业自己研发日志处理系统则需要一定的经验,比如如何规范数据,如何做数据分布处理和汇总数据等等。

虽然Hadoop和Spark都是业界比较流行的开源技术,但是面向特定的业务场景很难做到尽善尽美。为此,又拍云独辟蹊径,开发了海量日志处理系统,来解决日处理TB级的压缩日志数据的方法。至于使用了哪些技术,黄慧攀则卖起了关子,感兴趣的用户可以关注在WOT 2016互联网运维与开发者峰会第二天上午的 【大数据与运维】专场中黄慧攀的有趣分享。


本文作者:鸢玮

来源:51CTO

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
相关文章
|
5月前
|
分布式计算 Kubernetes Hadoop
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
284 6
|
5月前
|
分布式计算 资源调度 Hadoop
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
129 2
|
16天前
|
SQL 分布式计算 Serverless
基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用
基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用
|
4月前
|
存储 分布式计算 Hadoop
数据湖技术:Hadoop与Spark在大数据处理中的协同作用
【10月更文挑战第27天】在大数据时代,数据湖技术凭借其灵活性和成本效益成为企业存储和分析大规模异构数据的首选。Hadoop和Spark作为数据湖技术的核心组件,通过HDFS存储数据和Spark进行高效计算,实现了数据处理的优化。本文探讨了Hadoop与Spark的最佳实践,包括数据存储、处理、安全和可视化等方面,展示了它们在实际应用中的协同效应。
260 2
|
4月前
|
存储 分布式计算 Hadoop
数据湖技术:Hadoop与Spark在大数据处理中的协同作用
【10月更文挑战第26天】本文详细探讨了Hadoop与Spark在大数据处理中的协同作用,通过具体案例展示了两者的最佳实践。Hadoop的HDFS和MapReduce负责数据存储和预处理,确保高可靠性和容错性;Spark则凭借其高性能和丰富的API,进行深度分析和机器学习,实现高效的批处理和实时处理。
228 1
|
7月前
|
存储 分布式计算 资源调度
Hadoop生态系统概览:从HDFS到Spark
【8月更文第28天】Hadoop是一个开源软件框架,用于分布式存储和处理大规模数据集。它由多个组件构成,旨在提供高可靠性、高可扩展性和成本效益的数据处理解决方案。本文将介绍Hadoop的核心组件,包括HDFS、MapReduce、YARN,并探讨它们如何与现代大数据处理工具如Spark集成。
501 0
|
7月前
|
分布式计算 Hadoop 大数据
大数据处理框架在零售业的应用:Apache Hadoop与Apache Spark
【8月更文挑战第20天】Apache Hadoop和Apache Spark为处理海量零售户数据提供了强大的支持
119 0
|
4月前
|
分布式计算 大数据 Apache
ClickHouse与大数据生态集成:Spark & Flink 实战
【10月更文挑战第26天】在当今这个数据爆炸的时代,能够高效地处理和分析海量数据成为了企业和组织提升竞争力的关键。作为一款高性能的列式数据库系统,ClickHouse 在大数据分析领域展现出了卓越的能力。然而,为了充分利用ClickHouse的优势,将其与现有的大数据处理框架(如Apache Spark和Apache Flink)进行集成变得尤为重要。本文将从我个人的角度出发,探讨如何通过这些技术的结合,实现对大规模数据的实时处理和分析。
309 2
ClickHouse与大数据生态集成:Spark & Flink 实战
|
5月前
|
存储 分布式计算 算法
大数据-106 Spark Graph X 计算学习 案例:1图的基本计算、2连通图算法、3寻找相同的用户
大数据-106 Spark Graph X 计算学习 案例:1图的基本计算、2连通图算法、3寻找相同的用户
110 0
|
5月前
|
消息中间件 分布式计算 NoSQL
大数据-104 Spark Streaming Kafka Offset Scala实现Redis管理Offset并更新
大数据-104 Spark Streaming Kafka Offset Scala实现Redis管理Offset并更新
83 0