Apache Beam初探

简介: Apache BeamApache Beam provides an advanced unified programming model, allowing you to implement batch and streaming data processing jobs that can run on any execution engine.

Apache Beam

Apache Beam provides an advanced unified programming model, allowing you to implement batch and streaming data processing jobs that can run on any execution engine.

Apache Beam is:

  • UNIFIED - Use a single programming model for both batch and streaming use cases.
  • PORTABLE - Execute pipelines on multiple execution environments, including Apache Apex, Apache Flink, Apache Spark, and Google Cloud Dataflow.

  • EXTENSIBLE - Write and share new SDKs, IO connectors, and transformation libraries.
原文地址:https://beam.apache.org/

从定义上看,Apache Beam是一个增强型的统一编程模型,这个模型可以支持实现batch和streaming 数据处理工作,并且可以运行在任何执行引擎上。所以总结Apache Beam的特点为:
1、可以针对batch and streaming use cases使用一个编程模型;
2、可以在多个执行环境上执行pipeline,包括了当前比较流行的Apache Apex,Apache Flink,Apache Spark,和Google Cloud Dataflow。
3、可扩展,可以编写和共享新的SDKs,IO connectors,和transformation 库。

分析看来,Apache Beam是提供了一个统一的编程模型,或者说是为客户提供了一个统一的接口,让用户可以不再关心batch和steaming data的不同处理,让用户可以不再关心具体的执行环境或者执行引擎。
这个图更能说明Apache Beam做了什么:

如果Apache Beam真能发展壮大,那么针对大数据处理,无疑是提供了一个很好的解决方案,让用户省去了很多麻烦事。目前sdk仅仅能支持Java版本。

目录
相关文章
|
数据处理 分布式数据库 Apache
《使用Apache Beam和HBase进行高效数据处理》电子版地址
使用Apache Beam和HBase进行高效数据处理
83 0
《使用Apache Beam和HBase进行高效数据处理》电子版地址
|
存储 SQL 分布式计算
开放可编程API(兼容Apache Beam)
开放可编程API(兼容Apache Beam)
99 0
|
分布式计算 大数据 测试技术
|
分布式计算 大数据 数据处理
|
分布式计算 大数据 测试技术
|
大数据 数据处理 Apache
|
Apache 开发工具 数据处理
|
分布式计算 Hadoop API
Apache Beam研究报告
## 概述 本文不是一篇Beam的入门文档,不会介绍Beam的基本概念;而会主要探讨Beam的表达力,Beam的性能,以及Beam目前在业内的使用情况。面向的读者是那些想使用Beam作为自己公司操作大数据的统一API,但是还有所顾虑的人们。 ## 表达力 ### 离线 Beam里面有两个核心原语: * ParDo: 来处理通用的基于单条数据的计算: 每条需要处理的数据
6126 0
|
存储 API 数据处理

热门文章

最新文章

推荐镜像

更多