如何用实时数据同步打破企业数据孤岛?
我司之前采用的传统数据入仓一般只能保持在小时和天级别,因此它的时效性也比较低。同时,全量与增量两条链路是割裂的,意味着链路多,需要维护的组件也多,系统的可维护性会比较差。导致数据分析时效性比较差。Flink CDC具有很多实用性功能,我主要说一下我们公司感受到的,第一,并行读取。这个框架提供了分布式读取的能力,Flink CDC 这个框架可以支持水平扩容,只要资源够,读取的吞吐可以线性扩展。第二,无锁读取。对线上的数据库和业务没有侵入。第三,全增量一体化。全量和增量之间的一致性保障、自动衔接是框架给解决的,无需人工介入。Flink CDC支持全增量一体化同步,一张表里有历史的全量数据,也有新增的实时变更数据,会先同步全量历史数据,再无缝切换到同步增量数据,增量同步时,如果是新增的插入数据,会追加到实时一致性快照中;如果是更新的数据,则会在已有历史数据里做更新。增量快照算法使用了无锁算法,对业务库非常友好;支持了并发读取,解决了海量数据的处理问题;支持了断点续传,避免失败重做,能够极大地提高数据同步的效率与用户体验。相较于其他常见开源技术方案有着明显优势。
赞76
踩0