Apache Samza流处理框架介绍——kafka+LevelDB的Key/Value数据库来存储历史消息+?

简介:

转自:http://www.infoq.com/cn/news/2015/02/apache-samza-top-project

Apache Samza是一个开源、分布式的流处理框架,它使用开源分布式消息处理系统Apache Kafka来实现消息服务,并使用资源管理器Apache Hadoop YARN实现容错处理、处理器隔离、安全性和资源管理。近日,从Apache官方博客中得知,开源的分布式流处理框架Samza历经18个月的孵化期后终于升级成为Apache的顶级项目。Samza由LinkedIn于2013年9月开源并作为孵化项目贡献给Apache。

LinkedIn的工程部和运营部的高级副总裁Kevin Scott在公布消息的博文中说到:

Samza能够被广泛的使用并成为Apache的顶级项目真是令人兴奋,开发Samza是为了帮助解决LinkedIn流数据处理高性能的挑战,Samza已经成为LinkedIn业务架构的核心部分。

Improve Digital的CTO Garry Turkington在博文中说到:

Improve Digital已经积累了丰富的Samza经验,这使得Improve
Digital使用Samza能够构建出功能强大的流数据处理平台。此外,Samza能够升级成为Apache顶级项目真是太棒了。

Samza非常适用于实时流数据处理的业务(如同Apache Storm),如数据跟踪、日志服务、实时服务等应用,它能够帮助开发者进行高速消息处理,同时还具有良好的容错能力。在Samza流数据处理过程中,每个Kafka集群都与一个能运行Yarn的集群相连并处理Samza作业。Samza的一个简单处理过程如下图所示:

Samza的主要特征如下:

  • 简单的API:Samza提供了一个简单基于回调且兼容MapReduce的消息处理API。
  • 状态管理:Samza提供了一个基于LevelDB的Key/Value数据库来存储历史数据,从而实现了有状态的消息管理。
  • 容错处理:每当集群中的一台机器发生故障时,YARN将会透明地将相关任务迁移到其他机器上。
  • 持久性:Samza使用Kafka保证消息的有序处理,并能够持久化到分区,不存在发生消息的丢失的可能。
  • 可扩展性:Samza在每个层结构都是可分区和分布式的,Kafka提供了有序、可分区、可追加、容错的流;YARN提供了一个分布式、供Samza运行的容器环境。
  • 可插拔/开箱即用:Samza提供了一个可插拔特性的API,该API使得Samza不仅能够使用Kafka和YARN,还能够使用其他的消息系统和执行环境。
  • 资源隔离:通过使用YARN实现了对Hadoop安全模型和资源隔离的支持。

LinkedIn、Microsoft、Confluent、Oracle、HortonworksUberImprove Digital等众多著名公司都在为Samza贡献代码。Samza已在商务智能(BI)、金融服务、医疗保健、安全服务、移动应用、软件开发等行业得到了广泛应用,其用户包括企业移动应用提供商DoubleDutch、欧洲领先的实时广告技术提供商Improve Digital、金融服务公司Jack Henry & Associates、移动商务解决方案提供商MobileAware、基于云的微服务提供商Quantiply、社交媒体商务智能解决方案提供商VinTank等。

此外,实时/流计算框架除了Samza外,还包括Google DremelApache Drill、Apache Storm以及Apache S4等。有兴趣的读者可以通过官方提供的Hello Samza工程尝试下Samza,或者参见Background页面以获得更多关于Samza的信息。读者还可以阅读LinkedIn资深SRE Jon Bringhurst发表的一篇博文,该篇博文主要阐述了LinkedIn是如何利用Samza与Yarn、Kafka进行扩展的,它能够帮助大家深一步地了解Samza。















本文转自张昺华-sky博客园博客,原文链接:http://www.cnblogs.com/bonelee/p/6295615.html,如需转载请自行联系原作者

相关文章
|
2月前
|
搜索推荐 前端开发 算法
基于用户画像及协同过滤算法的音乐推荐系统,采用Django框架、bootstrap前端,MySQL数据库
本文介绍了一个基于用户画像和协同过滤算法的音乐推荐系统,使用Django框架、Bootstrap前端和MySQL数据库构建,旨在为用户提供个性化的音乐推荐服务,提高推荐准确性和用户满意度。
171 7
基于用户画像及协同过滤算法的音乐推荐系统,采用Django框架、bootstrap前端,MySQL数据库
|
2月前
|
消息中间件 Kafka 数据库
深入理解Kafka的数据一致性原理及其与传统数据库的对比
【8月更文挑战第24天】在分布式系统中,确保数据一致性至关重要。传统数据库利用ACID原则保障事务完整性;相比之下,Kafka作为高性能消息队列,采用副本机制与日志结构确保数据一致性。通过同步所有副本上的数据、维护消息顺序以及支持生产者的幂等性操作,Kafka在不牺牲性能的前提下实现了高可用性和数据可靠性。这些特性使Kafka成为处理大规模数据流的理想工具。
59 6
|
2月前
|
SQL Java 数据库连接
Hibernate 是一款开源 ORM(对象关系映射)框架,封装了 JDBC,允许以面向对象的方式操作数据库,简化了数据访问层的开发。
Hibernate 是一款开源 ORM(对象关系映射)框架,封装了 JDBC,允许以面向对象的方式操作数据库,简化了数据访问层的开发。通过映射机制,它可以自动处理对象与数据库表之间的转换,支持主流数据库,提高了代码的可移植性和可维护性。其核心接口包括 SessionFactory、Session 和 Transaction 等,通过它们可以执行数据库的 CRUD 操作。配置方面,需在项目中引入 Hibernate 及数据库驱动依赖,并创建 `hibernate.cfg.xml` 配置文件来设置数据库连接和 Hibernate 行为参数。
40 1
|
3月前
|
开发框架 缓存 NoSQL
基于SqlSugar的数据库访问处理的封装,在.net6框架的Web API上开发应用
基于SqlSugar的数据库访问处理的封装,在.net6框架的Web API上开发应用
|
2月前
|
消息中间件 人工智能 Kafka
Apache Kafka + 向量数据库 + LLM = 实时 GenAI
生成式AI(GenAI)革新了企业架构,催生新数据集成模式与最佳实践。借助Apache Kafka与Apache Flink,企业能高效处理大规模实时数据,连接各类数据库与分析平台。Kafka作为核心组件,支持GenAI应用如服务台自动化、聊天机器人及内容审核。结合大型语言模型(LLM)、检索增强生成(RAG)与向量数据库,Kafka与Flink共同打造强大数据流处理能力,克服GenAI挑战,如昂贵训练成本、数据时效性与准确性。通过语义搜索与RAG设计模式,确保LLM生成内容可靠无误。
63 0
|
2月前
|
druid Java 数据库连接
SpringBoot项目整合MybatisPlus持久层框架+Druid数据库连接池,以及实现增删改查功能
SpringBoot项目整合MybatisPlus和Druid数据库连接池,实现基本的增删改查功能。
261 0
|
2月前
|
消息中间件 大数据 Kafka
Apache Flink 大揭秘:征服大数据实时流处理的神奇魔法,等你来解锁!
【8月更文挑战第5天】Apache Flink 是一款强大的开源大数据处理框架,专长于实时流处理。本教程通过两个示例引导你入门:一是计算数据流中元素的平均值;二是从 Kafka 中读取数据并实时处理。首先确保已安装配置好 Flink 和 Kafka 环境。第一个 Java 示例展示了如何创建流执行环境,生成数据流,利用 `flatMap` 转换数据,并使用 `keyBy` 和 `sum` 计算平均值。第二个示例则演示了如何设置 Kafka 消费者属性,并从 Kafka 主题读取数据。这两个示例为你提供了使用 Flink 进行实时流处理的基础。随着进一步学习,你将能应对更复杂的实时数据挑战。
61 0
|
2月前
|
开发框架 NoSQL 关系型数据库
基于SqlSugar的开发框架循序渐进介绍(27)-- 基于MongoDB的数据库操作整合
基于SqlSugar的开发框架循序渐进介绍(27)-- 基于MongoDB的数据库操作整合
|
6天前
|
消息中间件 存储 运维
为什么说Kafka还不是完美的实时数据通道
【10月更文挑战第19天】Kafka 虽然作为数据通道被广泛应用,但在实时性、数据一致性、性能及管理方面存在局限。数据延迟受消息堆积和分区再平衡影响;数据一致性难以达到恰好一次;性能瓶颈在于网络和磁盘I/O;管理复杂性涉及集群配置与版本升级。
|
15天前
|
消息中间件 Java Kafka
Flink-04 Flink Java 3分钟上手 FlinkKafkaConsumer消费Kafka数据 进行计算SingleOutputStreamOperatorDataStreamSource
Flink-04 Flink Java 3分钟上手 FlinkKafkaConsumer消费Kafka数据 进行计算SingleOutputStreamOperatorDataStreamSource
18 1

推荐镜像

更多