三分钟深入TT猫之故障转移

本文涉及的产品
传统型负载均衡 CLB,每月750个小时 15LCU
网络型负载均衡 NLB,每月750个小时 15LCU
EMR Serverless StarRocks,5000CU*H 48000GB*H
简介:

结束了一周繁忙的工作,趁着周末,小编手中的键盘早已饥渴难耐了,想知道上期省略号中发生了什么有趣的故事么?且听小编娓娓道来,结尾有彩蛋。

1

风月前场

春风再续,书接上回,春香园的老鸨妈妈,给这位血气方刚的骚年挑选了一位佳人A,于是乎骚年兴致勃勃的进入了闺房,宜言饮酒,与子同欢,琴瑟在御,莫不静好,谁知佳人A突然来月事了(这个事先老鸨是不知道的)

我了个擦,春宵一刻值千金啊,赶召唤系老鸨儿,老鸨先是把A从侍客名单中剔除,随后赶紧给这位骚年换了一位佳人B,歌管楼台声细细,秋千院落夜沉沉,哈哈哈,又是一个难忘的夜晚......

2

梦回现实

哎,少年,醒醒,别做梦了,快起来搬砖了

3

其实在实际生产中,我们的负载均衡器可能要更加温柔体贴智能,不能让用户有一丝感觉到服务器也来大姨妈。

  • 还记得我们的TT猫,下单失败的场景么?被强行跳转到登陆页。
  • 还记得双十一妹子那幽怨的小眼神么?可能你已在偷偷乐了。
  • 还记得程序员小明瞎白活了一顿原理么?其实可能他自己都没搞明白。

模拟老鸨

在讲如何体贴之前,先给大家传授几种老鸨经常使用的分配手法,为了让大家更加形象直观的了解老鸨的内心,小编决定带大家扒开来看,当然了鸨妈的内心也是一坨代码而已。

4

首先我们定义一个OldBird,接着安排四个smallBirds值班。

/**
 * 老鸨
 * 创建时间 2017年9月16日
 */
public class OldBird {
    // Key代表风尘X子,Value代表该风尘X子的受欢迎程度
    public static Map<String, Integer> smallBirds = new ConcurrentHashMap<String, Integer>();

    static {
        smallBirds.put("野鸡", 1);
        smallBirds.put("幺二", 2);
        smallBirds.put("长三", 3);
        smallBirds.put("书寓", 4);
    }
}

开张了,开张了,显然第一位客人并没有入的了鸨儿的法眼,随机了一个后继续嗑她的瓜子。

/**
 * 随机 
 * 创建时间 2017年9月16日
 */
public class Random {
    public static String getServer() {
        // 获取值班名单
        Set<String> keySet = ServerMap.servers.keySet();
        ArrayList<String> keyList = new ArrayList<String>();
        keyList.addAll(keySet);
        // 老鸨看人办事 精打细算了一下、随即了一个
        java.util.Random random = new java.util.Random();
        int randomPos = random.nextInt(keyList.size());
        // 程序员小明获取了一个smallBird
        return keyList.get(randomPos);
    }
}

可能是鸨妈的随机有点看心情,导致后院有些人有点不高兴了,于是乎赶紧采取了另一种策略。

/**
 * 轮询 
 * 创建时间 2017年9月16日
 */
public class RoundRobin {
    private static Integer pos = 0;

    public static String getServer() {
        //获取今日值班名单
        Set<String> keySet = ServerMap.servers.keySet();
        ArrayList<String> keyList = new ArrayList<String>();
        keyList.addAll(keySet);
        //有些人 活太少 可能会不高兴 还是排号来吧
        String server = null;
        synchronized (pos) {
            if (pos >= keySet.size())
                pos = 0;
            server = keyList.get(pos);
            pos++;
        }
        // 程序员小明获取了一个smallBird
        return server;
    }
}

这时候大茶壶急急忙忙的赶到老鸨身边,哎,别嗑了,韦爷点名要书寓,赶紧给安排安排,老鸨一想常客啊,不行,我得好好编排一下,省的老被打扰。

/**
 * 源地址哈希
 * 创建时间    2017年9月16日
 */
public class Hash {
    public static String getServer()      
    {      
        //获取今日值班名单
        Set<String> keySet = ServerMap.servers.keySet();      
        ArrayList<String> keyList = new ArrayList<String>();      
        keyList.addAll(keySet);  
        //韦爷 悠哉的进来的 点名要书寓
        String remoteGuest = "韦爷";      
        //老鸨给韦爷 设置固定编号
        int hashCode = remoteGuest.hashCode();
        int serverListSize = keyList.size();
        int serverPos = hashCode % serverListSize;
        //韦爷获取到了指定服务
        return keyList.get(serverPos);      
    }      
}

读到最后,小伙伴们可能要问了,那个Map中的Value并没有起作用啊,让老鸨吃了么?其实,只是感觉用在这里不妥而已,有些事,你懂我懂大家都懂。

具体到生产架构中,应该是这个样子的

/**
 * 服务器负载均衡集群组 
 * 创建时间 2017年9月16日
 */
public class ServerMap {
    // Key代表服务器,Value代表该服务的权重
    public static Map<String, Integer> servers = new ConcurrentHashMap<String, Integer>();
    static {
        //这里有四个服务 权重分别是1234
        servers.put("1核1G-服务器", 1);
        servers.put("2核2G-服务器", 2);
        servers.put("3核3G-服务器", 3);
        servers.put("4核4G-服务器", 4);
    }
}

能者多劳,权重视服务器的性能而定,下面的算法,服务器4每次有百分之四十的几率被获取到。

/**
 * 加权轮询
 * 创建时间    2017年9月16日
 */
public class WeightRoundRobin {
    private static Integer pos = 0;   

    public static String getServer()   
    {   
        //取得服务器List   
        Set<String> keySet = ServerMap.servers.keySet();   
        Iterator<String> iterator = keySet.iterator();   
        //计算权重总数 累加 比如 4核4G-服务器  权重为4 上述10个服务器中存在4个4核4G-服务器服务  增加随机或者轮询几率
        List<String> serverList = new ArrayList<String>();   
        while (iterator.hasNext())   
        {   
            String server = iterator.next();   
            int weight = ServerMap.servers.get(server);   
            for (int i = 0; i < weight; i++)   
                serverList.add(server);   
        }   

        String server = null;   
        synchronized (pos)   
        {   
            if (pos >= keySet.size())   
                pos = 0;   
            server = serverList.get(pos);   
            pos ++;   
        }   

        return server;   
    }  
}

说了这么多,以上只是几种简单的负载均衡算法,在 记一次JavaWeb网站技术架构总结 中有提到十种负载均衡策略以及其优缺点,有兴趣的同学可以一看。

会话机制

各位看官莫急,要想弄明白故障转移是怎么回事,必须要弄明白客户端-服务端的会话认证机制。

由于HTTP协议本身是无状态的,这与HTTP协议本来的目的是相符的,那么小马哥是怎么知道那些用户买了那些东西的呢?

以Tomcat为例,大家都知道session是在服务器端创建并存储到容器的JVM内存中的,浏览器初次访问服务器会生成一个叫JSESSIONID的cookie,浏览器的每次请求都会附带这个cookie,服务端通过JSESSIONID会找到内存中对应的状态信息。

程序员小明,打开TT猫,输入自己的账号密码,附带cookie信息请求到了后台,TT猫后台校验成功以后,会把用户信息保存到JSESSIONID对应的内存中,这样小明和TT猫就可以无障碍的深入交流了。

这个过程也可以用以下示意图来描述:

5

如果你觉得会话机制如此简单,那可就有点高看小编了,篇幅有限,对会话机制感兴趣的同学只能自行查阅资料了。

故障转移

老鸨之所以能快速安抚骚年使其顺利度过这缠绵之夜,有没有感受到老鸨强大的人工智能气息?

6

其实我们的负载均衡器Nginx,也是做的相当智能的,如果后端节点服务器宕掉的话,Nginx通过自带的模块可以把这台坏掉的服务踢出upstream负载集群组,然后自动切换到健康节点来提供访问。

有过开发经验的小伙伴,都知道服务分有状态和无状态。

  • 无状态服务(Stateless Service):游客浏览商品、搜索商品等等这种不需要鉴权的操作。
  • 有状态服务(Stateful Service): 添加购物车,下单,支付等等需要用户认证的操作。

对于这种无状态的服务请求,不管集群组使用任何负载均衡算法(随机、轮询、hash),只要有一个存活,小马哥的TT猫就可以提供正常服务。

但是对于支付这种需要用户认证的操作,不得不说,我们要选择合适的负载均衡算法。

服务独自存储用户状态

  • 随机、轮询算法,小明可能一辈子都无法登陆TT猫
  • hash算法,单一服务宕掉的话会导致用户状态丢失

服务统一存储用户状态

架构设计之Spring-Session分布式集群会话管理

总结

7

秋名山上行人稀,常有框架较高低,如今原理依旧在,不见当年老框架。

底层原理可能你这辈子都不过时,解决问题的能力永远都不过时,积极向上的求知欲永远是你的强大后盾。

既定目标,做个有追求的程序员,如果你连算法数据结构都能搞得明白,网络传输都可以手到擒来,怎学不会简单的API调用?

塞内加在《论生命之短暂》中说过“如果一个人出海遇到狂风暴雨,被变换肆虐的风吹得团团转,你可能会觉得他航行了很远。其实航行得并不远,只是浮沉动荡的时间长而已”,没错如今的知识就像出海时遇到的狂风暴雨,我们只是被吹的原地团团转而已,并没有在知识的海洋航行很远。

https://blog.52itstyle.com/usr/uploads/2017/09/3701848136.gif) no-repeat 6px 50%;">最后,愿大家都不会被吹昏头脑,据说留言的程序员都找到女朋友了...
相关实践学习
SLB负载均衡实践
本场景通过使用阿里云负载均衡 SLB 以及对负载均衡 SLB 后端服务器 ECS 的权重进行修改,快速解决服务器响应速度慢的问题
负载均衡入门与产品使用指南
负载均衡(Server Load Balancer)是对多台云服务器进行流量分发的负载均衡服务,可以通过流量分发扩展应用系统对外的服务能力,通过消除单点故障提升应用系统的可用性。 本课程主要介绍负载均衡的相关技术以及阿里云负载均衡产品的使用方法。
目录
相关文章
|
5月前
|
算法 前端开发
3029. 将单词恢复初始状态所需的最短时间 I
3029. 将单词恢复初始状态所需的最短时间 I
24 0
|
5月前
|
算法
最大流判定(星际转移问题)
最大流判定(星际转移问题)
54 0
|
2月前
|
消息中间件 存储 Kafka
【Kafka大揭秘】掌握这些秘籍,让你的消息状态跟踪稳如老狗,再也不怕数据丢失的尴尬时刻!
【8月更文挑战第24天】Kafka作为一个领先的分布式流数据平台,凭借其出色的性能和扩展性广受青睐。为了保障消息的可靠传输与处理,Kafka提供了一系列核心机制:生产者确认确保消息成功到达;消费者位移管理支持消息追踪与恢复;事务性消息保证数据一致性;Kafka Streams的状态存储则适用于复杂的流处理任务。本文将详细解析这些机制并附带示例代码,帮助开发者构建高效稳定的消息处理系统。
34 5
|
数据库
机房重构上下机时间记录问题
机房重构上下机时间记录问题
76 0
H3C服务器红灯故障解决方案
H3C服务器红灯故障解决方案
316 0
|
SQL 弹性计算 运维
数据库故障致美国超一万航班取消或延迟
在2023年新年的第二周,美国东部时间1月11日上午,6点29分,美国航空监管机构(FAA)发布了一条仅40字的通告,随后不久,很快就宣布停飞全美所有国内航班。通告内容是,FAA正在对NOTAM(Notice to Air Missions)系统进行验证和恢复,在第一条通知之后的50分钟,FAA就宣布停飞所有国内航班。
365 0
数据库故障致美国超一万航班取消或延迟
|
数据采集 消息中间件 NoSQL
可恶的爬虫直接把生产6台机器爬挂了!
可恶的爬虫直接把生产6台机器爬挂了!
148 0
可恶的爬虫直接把生产6台机器爬挂了!
|
SQL 运维 关系型数据库
居然可以同时拥有任意门和时光机?!RDS应急恢复满足你
作者:阿里云数据库高级技术专家 时勤
434 0
居然可以同时拥有任意门和时光机?!RDS应急恢复满足你
|
Web App开发 SQL Java
艾伟:一次挂死(hang)的处理过程及经验
前言:        CPU占用率低,内存还有许多空余,但网站无法响应,这就是网站挂死,通常也叫做hang。这种情况对于我这样既是CEO,又是CTO,还兼职扫地洗碗的个人站长来说根本就是家常便饭。以下是一次处理hang的经验及总结,前后用了一个月,不仅涉及程序排查,数据库优化,还有硬件升级的苦恼。
1661 0
|
Web App开发 SQL Java
艾伟_转载:一次挂死(hang)的处理过程及经验
前言:        CPU占用率低,内存还有许多空余,但网站无法响应,这就是网站挂死,通常也叫做hang。这种情况对于我这样既是CEO,又是CTO,还兼职扫地洗碗的个人站长来说根本就是家常便饭。以下是一次处理hang的经验及总结,前后用了一个月,不仅涉及程序排查,数据库优化,还有硬件升级的苦恼。
1635 0