数据同步指的是将数据从一个数据库迁移至另外一个数据库,可以是同构数据库(例如从MySQL到MySQL),也可以是异构数据库(例如从MySQL到Elasticsearch),无论那种形式,同步的方法无外乎分为全量同步和增量同步。
全量同步
全量同步是指定时从源数据库中读取全量数据,然后直接写入到目的数据库中。当数据量特别大时,可以分批次读取和写入。然而,这其实是一种深翻页的操作,这会给数据库带很大的压力,会影响线上正常业务的响应时长。
为了配合全量同步,在每次开始同步之前,目的数据库需先清理现存数据,或者将新数据写入到临时表中,同步完成后再删除原数据。
综上所述,全量同步的优点是实现简单,无需借助其他数据同步中间件。但缺点却非常明显,数据更新不及时,同步时占用CPU和内存资源较多,最坏的情况下,会占用两倍磁盘空间。
增量同步
增量同步是指首次同步时采取全量同步的方式,之后只同步数据的变动,例如新增、更新、删除。增量同步需要解析数据库本身的log日志,例如MySQL的binlog。有许多中间件可以帮助我们来实现增量同步,例如canal、datax等。针对异构数据库同步的场景,建议使用kafka等消息中间件,来进行数据清洗、格式转化等操作,灵活性更大。
总结
建议在任何场景下,都要使用增量同步的方式。既能保证数据的实时性,又能降低同步时对源数据库的影响。贪图省事儿,大干快上,后期只能偿还技术债。