《Storm实时数据处理》一2.1 简介

简介:

本节书摘来华章计算机《Storm实时数据处理》一书中的第2章 ,第2.1节,(澳)Quinton Anderson 著 卢誉声 译更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.1 简介

本章将会展示一个企业日志存储系统的实现方法,以及一个基于Storm处理系统的搜索分析解决方案。其实日志数据处理已经不再是一个需要解决的问题了,但它依然能够帮助我们加深理解这些新概念。
数据流处理在现代企业中是一个主要的架构关注点。但通常情况下,最理想的数据流也只是半结构化的。本章展示了一个企业日志的处理方案,目的是为了让读者学习了解各种重要概念,获得处理各种类型数据的能力。由于日志数据量庞大,因此日志数据也为学术研究提供了极大的便利。对于任何流处理或分析工作来说,其成功的关键都在于深入理解实际数据和获取数据这两项因素上,而这往往非常困难。
因此,如何将架构设计蓝图运用到企业其他形式的数据中,才是读者需要重点关注的问题。
image

你将学习如何建立日志代理,它可以部署到你环境中的任意节点上。你也将学到如何使用Storm和Redis集中式地收集、分析、索引和统计日志,以便日后搜索和展示它们的基本统计信息。

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
相关文章
|
11小时前
|
分布式计算 监控 数据处理
实时数据处理概述与Spark Streaming简介
实时数据处理概述与Spark Streaming简介
|
消息中间件 存储 大数据
实时流处理框架之Storm的安装与部署
实时流处理框架之Storm的安装与部署
199 0
实时流处理框架之Storm的安装与部署
|
存储 运维 OLAP
【实时数仓篇】(02)基于 Flink 的典型 ETL 场景实现1
【实时数仓篇】(02)基于 Flink 的典型 ETL 场景实现1
439 0
【实时数仓篇】(02)基于 Flink 的典型 ETL 场景实现1
|
存储 流计算
【实时数仓篇】(02)基于 Flink 的典型 ETL 场景实现2
【实时数仓篇】(02)基于 Flink 的典型 ETL 场景实现2
223 0
【实时数仓篇】(02)基于 Flink 的典型 ETL 场景实现2
|
消息中间件 算法 固态存储
主流实时流处理计算框架Flink初体验。
Apache Flink是由Apache软件基金会开发的开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎。Flink以数据并行和流水线方式执行任意流数据程序,Flink的流水线运行时系统可以执行批处理和流处理程序。此外,Flink的运行时本身也支持迭代算法的执行。Flink 是一个框架和分布式处理引擎,用于对无界和有界数据流进行状态计算。Flink 被设计为在所有常见的集群环境中运行,以内存中的速度和任何规模执行计算。Apache Flink 是为分布式、高性能、随时可用以及准确的流处理应用程序打造的开源流处理框架。
主流实时流处理计算框架Flink初体验。
|
分布式计算 大数据 流计算
基于Flink流处理的动态实时电商实时分析系统
Flink是一个针对流数据和批数据的分布式处理引擎,主要用Java代码实现。
2316 0
|
消息中间件 SQL Kafka
使用 Kafka 和 Flink 构建实时数据处理系统
引言 在很多领域,如股市走向分析, 气象数据测控,网站用户行为分析等,由于数据产生快,实时性强,数据量大,所以很难统一采集并入库存储后再做处理,这便导致传统的数据处理架构不能满足需要。流计算的出现,就是为了更好地解决这类数据在处理过程中遇到的问题。
11963 0
|
分布式计算 监控 测试技术
《Storm实时数据处理》一导读
开源已经在许多方面从根本上改变了软件的原有面貌。在很多应用环境中,人们都会争论使用开源带来的好处和坏处,主要体现在支持、风险以及总体拥有成本等方面。开源在某些领域比其他领域流行,比如在研究机构中就比在大型金融服务提供商中应用得多。
1241 0