Flume-ng FileChannel原理解析

本文涉及的产品
全局流量管理 GTM,标准版 1个月
云解析 DNS,旗舰版 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
简介:

对于Flume来说主要有两个ChannelMemoryFile;对于线上环境主要以FileChannel为主,因此这里主要讨论它的实现:

FileChannel里主要由一个WALlog和一个内存队列组成:

FileChannelQueue主要又以下几个部分组成:

privatefinal EventQueueBackingStore backingStore;

privatefinal InflightEventWrapper inflightTakes;

privatefinal InflightEventWrapper inflightPuts;

其中backingStore代表了queue在持久化存在,使用了内存映射文件的方式;每次对queue的读写操作都记录在backingStoreoverwritemapupdate in place)中,当进行checkpoint的时候合并到elementsBuffer并持久化到磁盘;所有未提交的正在读写数据都分别保存在inflight结构中,当checkpoint时一并进行持久化,为回滚时使用;

inflight中存储了transactionid->fileid以及transactionid->eventptr的映射,具体存储在backingStore里的则是eventptrfileid,offset;

Checkpoint file的文件结构如下:

File Header1029 bytes

Eventptr;

File header里前8个字节存储了版本号,接下来24个字节是sequeuece no.(类似rdbmsscn),接下来4个字节存储了checkpoint的状态;

作为WALLog主要存储了(transactionid,sequenceNo,Event,每次读写都先在log里写入event,对于写操作会拿到eventptr放入queue中;而commitrollback操作在log中的记录形式是(transactionid,sequenceNoOP={commit,rollback})

这两个结构主要是体现在FileBackedTransaction中如下

FileBackedTransaction extends BasicTransactionSemantics

......

LinkedBlockingDeque<FlumeEventPointer>takeList;

LinkedBlockingDeque<FlumeEventPointer> putList;

longtransactionID;

Log log;

FlumeEventQueue queue: EventQueueBackingStoreFile

其中queue = log.getFlumeEventQueue();

首先看put/take path以及commit

1. doPut(Eventevent)->

queue.addWithoutCommit(ptr, transactionID)

log.put(transactionID, event)->

synchronized LogFile.Writer.put(ByteBufferbuffer)

putList.offer(ptr)

2. doTake()->

FlumeEventPointer ptr = queue.removeHead(transactionID);

takeList.offer(ptr),

log.take(transactionID, ptr); ->

synchronizedLogFile.Writer.take(ByteBuffer buffer)

Event event = log.get(ptr);

3. doCommit()->

if(puts > 0) {

log.commitPut(transactionID);

synchronized (queue) {

while(!putList.isEmpty()) {

queue.addTail(putList.removeFirst())

queue.completeTransaction(transactionID);

}

}

elseif (takes > 0) {

log.commitTake(transactionID);->

logFileWriter.commit(buffer);

logFileWriter.sync();

queue.completeTransaction(transactionID);

queueRemaining.release(takes);

}

}

从上面的代码可以看出,对于每一个put/take都会记录一条oploglog,commit的时候会对log进行sync到磁盘持久化,同时会把event指针存放到queue上;这里的log就类似于mysql里的binlog(binlog_format=statement),而这里的queue存放的是指向event的指针;

简例:FileChannel如下,对FileChannel put了2个消息,a,b;则在log,queue里的存储状态如下,Log里存储了(transactionid,sequenceNo,Event),queue则存储了eventptr;

Queue:ptr->a,ptr->b

WAL log:(1,1,put a),(1,2,put b),(1,3,commit)

当实例crash时,通过log来恢复queue的状态,类似rdbms一样,replay是很耗时的操作,因此会定期对queue进行checkpoint

Log在初始化的时候会启动一个调度线程workerExecutor,由调度线程定期(checkpoint interval)调度一个backgroupWorkder来进行非强制性checkpoint

Log.writeCheckpoint(Boolean force):tryLockExclusive->

synchronized queue.checkpoint->

backingStore.beginCheckpoint();//检查是否checkpoint正在进行;同时进行标记checkpoint开始,并同步MMAP file;

inflightPuts.serializeAndWrite();//

inflightTakes.serializeAndWrite();//inflightputs/takes序列化并写到相应文件

backingStore.checkpoint();->

setLogWriteOrderID(WriteOrderOracle.next());

writeCheckpointMetaData();

//copy from overwriteMap toelementsBuffer(MMAP)

//标记checkpoint结束,并同步文件

简例:接上例,在a,b提交后,这时进行了一次checkpoint(存储在磁盘上的checkpoint则是2个指针ptr->a,ptr->b),此时scn=4;之后,又完成了一个take transaction ,ptr to a 也同时被删除;如果这时Flume crashqueuecheckpoint中重建,并且取得checkpoint scn=4,replay这之后的log进行crash recovery;在恢复后,立刻执行一次checkpoint.

queue:ptr->b

WAL log:(1,1,put a),(1,2,put b),(1,3,commit),(2,5,take a),(2,6,commit)


本文转自MIKE老毕 51CTO博客,原文链接:http://blog.51cto.com/boylook/1298624,如需转载请自行联系原作者

相关文章
|
19天前
|
存储 缓存 算法
HashMap深度解析:从原理到实战
HashMap,作为Java集合框架中的一个核心组件,以其高效的键值对存储和检索机制,在软件开发中扮演着举足轻重的角色。作为一名资深的AI工程师,深入理解HashMap的原理、历史、业务场景以及实战应用,对于提升数据处理和算法实现的效率至关重要。本文将通过手绘结构图、流程图,结合Java代码示例,全方位解析HashMap,帮助读者从理论到实践全面掌握这一关键技术。
64 13
|
2月前
|
运维 持续交付 云计算
深入解析云计算中的微服务架构:原理、优势与实践
深入解析云计算中的微服务架构:原理、优势与实践
76 1
|
5天前
|
存储 物联网 大数据
探索阿里云 Flink 物化表:原理、优势与应用场景全解析
阿里云Flink的物化表是流批一体化平台中的关键特性,支持低延迟实时更新、灵活查询性能、无缝流批处理和高容错性。它广泛应用于电商、物联网和金融等领域,助力企业高效处理实时数据,提升业务决策能力。实践案例表明,物化表显著提高了交易欺诈损失率的控制和信贷审批效率,推动企业在数字化转型中取得竞争优势。
37 14
|
13天前
|
网络协议 安全 网络安全
探索网络模型与协议:从OSI到HTTPs的原理解析
OSI七层网络模型和TCP/IP四层模型是理解和设计计算机网络的框架。OSI模型包括物理层、数据链路层、网络层、传输层、会话层、表示层和应用层,而TCP/IP模型则简化为链路层、网络层、传输层和 HTTPS协议基于HTTP并通过TLS/SSL加密数据,确保安全传输。其连接过程涉及TCP三次握手、SSL证书验证、对称密钥交换等步骤,以保障通信的安全性和完整性。数字信封技术使用非对称加密和数字证书确保数据的机密性和身份认证。 浏览器通过Https访问网站的过程包括输入网址、DNS解析、建立TCP连接、发送HTTPS请求、接收响应、验证证书和解析网页内容等步骤,确保用户与服务器之间的安全通信。
62 1
|
2月前
|
运维 持续交付 虚拟化
深入解析Docker容器化技术的核心原理
深入解析Docker容器化技术的核心原理
56 1
|
2月前
|
存储 供应链 算法
深入解析区块链技术的核心原理与应用前景
深入解析区块链技术的核心原理与应用前景
60 0
|
2月前
|
JavaScript 前端开发 API
Vue.js响应式原理深度解析:从Vue 2到Vue 3的演进
Vue.js响应式原理深度解析:从Vue 2到Vue 3的演进
67 0
|
2月前
|
API 持续交付 网络架构
深入解析微服务架构:原理、优势与实践
深入解析微服务架构:原理、优势与实践
46 0
|
2月前
|
存储 供应链 物联网
深入解析区块链技术的核心原理与应用前景
深入解析区块链技术的核心原理与应用前景
|
2月前
|
存储 供应链 安全
深度解析区块链技术的核心原理与应用前景
深度解析区块链技术的核心原理与应用前景
55 0

推荐镜像

更多