面试官:为什么在系统中不推荐双写?

本文涉及的产品
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
简介: 面试官:为什么在系统中不推荐双写?

引言

某日,阿雄跑去面试!于是有如下情形

面试官:"阿雄是吧,做做自我介绍!"阿 雄:"我叫阿雄,来自某a国际电商公司!" 面试官:"我看你项目里用了elasticsearch,你是怎么同步数据的呢?" 阿 雄:"在代码里写入数据库的时候,同时再写入elasticsearch!" 面试官:"那你如何保证写入数据库,和写入elasticsearch原子性问题呢?** 万一写入数据库成功了,写入elasticsearch失败了怎么处理?"**

阿 雄:"我还是回去等通知吧!"

OK,以上情形纯属虚构,如有雷同,绝对巧合!

其实这篇文章所探讨的数据同步策略并不限于某两种固定的存储系统之间,而想去探讨一种通用的数据同步策略。主要分为以下三个部分

  • (1)背景介绍
  • (2)双写缺点
  • (3)改良方案

基于 Spring Boot + MyBatis Plus + Vue & Element 实现的后台管理系统 + 用户小程序,支持 RBAC 动态权限、多租户、数据权限、工作流、三方登录、支付、短信、商城等功能。

项目地址:https://github.com/YunaiV/ruoyi-vue-pro

正文

背景介绍

话说阿雄在加入某a国际电商公司的时候,业务系统十分简单,一个database就能搞定一切!

可是某a国际电商公司在产品韩的领导下,业务增长迅速,阿雄发现了数据库越来越慢,于是乎阿雄加入了一些缓存,如redis来缓存一些数据,提高系统的响应能力。

又过了一段时间,产品韩发现搜索的速度灰常慢,让阿雄去改。阿雄在网上发现,现在业内都用一些elasticsearch做一些全文检索的操作,于是乎阿雄将一些需要全文检索的数据放入elasticsearch,提高了系统的搜索能力!

随着数据的膨胀,阿雄慢慢的发现了,对数据库做一些数据分析操作,性能明显的跟不上了。于是乎阿雄将数据库里的数据,导入hadoop,然后进行数据分析。

(省略一万字….)

最后,阿雄和产品韩幸福的在一起了

OK,好,现在分析上面的场景!思考第一个问题1、在database,redis,elasticsearch,hadoop中的数据是有关系的,还是彼此独立的?显然是有关系的,在这几个数据源中的数据都是相关的。只是格式不一样而已!例如,对于一条Product数据,在数据库里是

image.png

在redis里就是key为 product:pId:1,value是

{       "pId": "1",
    "productName": "macbook"
}

如上所示,只是数据格式不一样而已!

那好,现在思考第二个问题2、既然这些数据源之间数据是相关的,如何保证这几个数据源之间数据一致性!一种比较简单且容易想到的方案是,hardcode在程序中 例如现在有两个数据源DataSouce1和DataSource2,我们往里头写数据,代码如下

ProductService{
    \\省略
    public void syncData(){
        x1. writeDataSource1();
        x2. writeDataSource2();
    }
}

这就是我们标题中所提到的双写!那么,双写会带来什么坏处呢?OK,继续往下看!

双写缺点

一致性问题打个比方我们现在有两个client,同时往两个DataSouce写数据。

  • 一个client往里头入X为1
  • 一个client往里头入X为5

那么会有如下情形出现

image.png

如图所示,两个DataSouce的数据就不一致了,一个为1,一个为5。除非接下来有一个新的请求,对x数据发生了变更,才能修正这种现象!否则,你可能永远都发现不了。

原子性问题因为我们需要同时往DataSource1和DataSource2一起写数据,你需要保证

x1. writeDataSource1();
x2. writeDataSource2();

这两个操作一起成功,或者一起失败!如果采用双写的方法,是避不开这个问题的!

那么有没有通用的办法来解决这些问题呢?有的,只要能按顺序记录数据的变更即可!那具体怎么做呢,我们继续往下看!

改良方案

假设,如果我们能将数据按顺序记录,写入某个消息队列,然后其他系统按消息顺序恢复数据,看看what happen? 此时架构图如下

image.png

在该架构下,所有的数据变更写入一个消息队列里去。其他各数据源从消息队列里恢复数据即可!

那么,此时还有一致性问题,和原子性问题么?一致性问题OK,这种情况下,各个数据源之间数据肯定是一致的。因为写入顺序已经在消息队列中定义好,各数据源按照消息队列中的消息顺序,恢复数据即可,并不存在竞争现象。因此,不会出现不一致的问题!原子性问题OK,这种情况下,如果写入DataSource失败会怎么样?例如出现了网络问题,这条消息恢复失败了。这个问题其实好解决,一般我们在顺序根据消息恢复数据的时候,会记录下坐标。如果写入失败,停止恢复数据。下次从该坐标处恢复数据即可。

但是在上面那张图中,写入DataBase是异步写入的。这样就不符合很多业务场景的"写后即读"的要求,因此,在实际落地中,做了一些变更!通用做法是去提取数据库的变化!如下图所示

image.png

在该图中的中间件,例如oracle中的oracle golden gate可以提取数据变化。mysql中的canal能提取数据的变化。至于消息队列,可以选用kafka。直接提取数据变化到kafka中,其他数据源从kafka中获取数据,避免了直接双写从而导致一致性和原子性问题。

基于微服务的思想,构建在 B2C 电商场景下的项目实战。核心技术栈,是 Spring Boot + Dubbo 。未来,会重构成 Spring Cloud Alibaba 。

项目地址:https://github.com/YunaiV/onemall

总结

本问讨论了在项目中常见的数据同步问题,希望大家有所收获。引言

相关实践学习
使用阿里云Elasticsearch体验信息检索加速
通过创建登录阿里云Elasticsearch集群,使用DataWorks将MySQL数据同步至Elasticsearch,体验多条件检索效果,简单展示数据同步和信息检索加速的过程和操作。
ElasticSearch 入门精讲
ElasticSearch是一个开源的、基于Lucene的、分布式、高扩展、高实时的搜索与数据分析引擎。根据DB-Engines的排名显示,Elasticsearch是最受欢迎的企业搜索引擎,其次是Apache Solr(也是基于Lucene)。 ElasticSearch的实现原理主要分为以下几个步骤: 用户将数据提交到Elastic Search 数据库中 通过分词控制器去将对应的语句分词,将其权重和分词结果一并存入数据 当用户搜索数据时候,再根据权重将结果排名、打分 将返回结果呈现给用户 Elasticsearch可以用于搜索各种文档。它提供可扩展的搜索,具有接近实时的搜索,并支持多租户。
相关文章
|
3月前
|
缓存 NoSQL 关系型数据库
|
7月前
|
存储 运维 算法
|
8月前
|
Dubbo Java 应用服务中间件
2023JAVA面试题全集(超全面!超系统!超实用!)早做准备,早上岸
前两个月,公司java岗位面了50+候选人,面试下来发现几类过不了的情况,分享大家防止踩坑: 新技术倒是掌握得挺多,基础的却一塌糊涂。
2023JAVA面试题全集(超全面!超系统!超实用!)早做准备,早上岸
|
21天前
|
分布式计算 资源调度 监控
Hadoop生态系统深度剖析:面试经验与必备知识点解析
本文深入探讨了Hadoop生态系统的面试重点,涵盖Hadoop架构、HDFS、YARN和MapReduce。了解Hadoop的主从架构、HDFS的读写流程及高级特性,YARN的资源管理与调度,以及MapReduce编程模型。通过代码示例,如HDFS文件操作和WordCount程序,帮助读者巩固理解。此外,文章强调在面试中应结合个人经验、行业动态和技术进展展示技术实力。
|
2月前
|
Dubbo Java 程序员
2024JAVA面试题全集(超全面!超系统!超实用!)早做准备,早上岸
前两个月,公司java岗位面了50+候选人,面试下来发现几类过不了的情况,分享大家防止踩坑: 新技术倒是掌握得挺多,基础的却一塌糊涂。 工作多年,从未学习过工作之外的技术栈,也没有对技术有任何的兴趣,遇到问题就百度去csdn看解决方案。 业务单一化和技术栈老化,技术简单,工作七八年,所有的项目都是spring+mybatis/hibernate+mysql。 这些情况一般面试就没啥希望了,毕竟对于大部分程序员来说:最重要的肯定是建立一个系统的知识支撑体系,使自己具备扎实的Java基础能力。 如果是冲击大厂的话,还能够满足大厂招聘需求,具备过硬的技术和较强的实战能力。 除此之外,面试
129 0
|
8月前
|
缓存 Java 程序员
面试进阶齐飞!Github一天万赞的阿里Java系统性能优化有多牛?
前两天在知乎上看到一个问答,说的是: 一个Java程序员具备什么样的素质和能力才可以称得上高级工程师? 这个问题也引发了我的一些思考,可能很多人会说,“作为高级工程师,基础得过硬、得熟练掌握一门编程语言、至少看过一个优秀开源项目的源代码、有过高并发/性能优化的工作经验、沟通能力强等等”。
56 0
|
4月前
|
存储 Linux 编译器
Linux系统中驱动面试分享
Linux系统中驱动面试分享
41 0
|
4月前
|
Dubbo Java 程序员
2023JAVA面试题全集(超全面!超系统!超实用!)早做准备,早上岸
前两个月,公司java岗位面了50+候选人,面试下来发现几类过不了的情况,分享大家防止踩坑: 新技术倒是掌握得挺多,基础的却一塌糊涂。 工作多年,从未学习过工作之外的技术栈,也没有对技术有任何的兴趣,遇到问题就百度去csdn看解决方案。 业务单一化和技术栈老化,技术简单,工作七八年,所有的项目都是spring+mybatis/hibernate+mysql。 这些情况一般面试就没啥希望了,毕竟对于大部分程序员来说:最重要的肯定是建立一个系统的知识支撑体系,使自己具备扎实的Java基础能力。 如果是冲击大厂的话,还能够满足大厂招聘需求,具备过硬的技术和较强的实战能力。
|
4月前
|
SQL 数据挖掘 数据处理
「SQL面试题库」 No_82 报告系统状态的连续日期
「SQL面试题库」 No_82 报告系统状态的连续日期