spark kafka stream 示例
这篇文章描述了 如何搭建kafka、zk和spark集群环境
本篇文章先简要的举个demo来说明下代码实现过程
- 源码
https://gitee.com/pingfanrenbiji/spark-scala-examples/blob/master/src/main/scala/com/sparkbyexamples/spark/kafka/WriteDataFrameToKafka.scala
通过spark往kafka写入数据
通过spark读取kafka数据
- 源码
https://gitee.com/pingfanrenbiji/spark-scala-examples/blob/master/src/main/scala/com/sparkbyexamples/spark/kaf
Flink
1、分布式、高性能、随时可用以及准确的流处理应用程序开源处理框架 2、分布式处理引擎 用于对无界或有界数据流进行有状态的计算 3、在所有常见的集群环境中运行 以内存执行速度和任务规模来执行计算
为什么选择Flink
- 流数据真实的反映了我们的生活方式
- 传统的数据架构是基于有限数据集的
- 目标
- 低延迟
- 高吞吐
- 结果的准确性和良好的容错性
哪些行业需要处理流数据
- 电商和市场营销
- 数据报表、广告投放、业务流程需要
- 物联网
- 传感器实时数据的采集和显示、实时报警、交通运输业
- 电信行
- 基站流量调配
- 银行和金融业
- 实时结算和通知推送 实时检测异常行为
传统的处理架构
- 事务处理