Flink Exactly-Once 投递实现浅析
5万人关注的大数据成神之路,不来了解一下吗?
5万人关注的大数据成神之路,真的不来了解一下吗?
5万人关注的大数据成神之路,确定真的不来了解一下吗?
随着近来越来越多的业务迁移到 Flink 上,对 Flink 作业的准确性要求也随之进一步提高,其中最为关键的是如何在不同业务场景下保证 exactly-once 的投递语义。
日志收集方式总结(转载)
转自:https://my.oschina.net/sunzy/blog/183795
1. 背景介绍
许多公司的平台每天会产生大量的日志(一般为流式数据,如,搜索引擎的pv,查询等),处理这些日志需要特定的日志系统,一般而言,这些系统需要具有以下特征:
(1) 构建应用系统和分析系统的桥梁,并将它们之间的关联解耦;
(2) 支持近实时的在线分析系统和类似于Hadoop之类的离线分析系统;
(3) 具有高可扩展性。
史上最全、最详细的 kafka 学习笔记!
一、为什么需要消息系统
1.解耦:
允许你独立的扩展或修改两边的处理过程,只要确保它们遵守同样的接口约束。
2.冗余:
消息队列把数据进行持久化直到它们已经被完全处理,通过这一方式规避了数据丢失风险。
滴滴出行千亿级消息队列炼成记!
本文整理自滴滴出行消息队列负责人 江海挺 在Apache RocketMQ开发者沙龙北京站的分享。通过本文,您将了解到滴滴出行:
1. 在消息队列技术选型方面的思考;
2. 为什么选择 RocketMQ 作为出行业务的消息队列解决方案;
3. 如何构建自己的消息队列服务;
4. 在 RocketMQ 上的扩展改造实践;
5. 在 RocketMQ 上的实践经验。
流式计算
从spark 说起,谈谈“流式”计算的理解
spark是一个大数据分布式的计算框架,有一些并行计算的基础会更容易理解分布式计算框架的概念。对比并行计算,谈三个概念:
并行计算
Map Reduce 算子
RDD数据结构
并行计算
spark的任务分为1个driver、多个executor。