系统架构设计:平滑发布和 ABTesting,你都会吗?

简介: 平滑发布的介绍背景单位的云办公相关系统没有成熟的平滑发布方案,导致每一次发布都是直接发布,dll文件或配置文件的变更会引起站点的重启。云办公系统的常驻用户有10000+,即使短短半分多钟,也会收到一堆投诉。基于此,我们梳理了一套平滑发布的方案。实施方案

平滑发布的介绍

背景

单位的云办公相关系统没有成熟的平滑发布方案,导致每一次发布都是直接发布,dll文件或配置文件的变更会引起站点的重启。


云办公系统的常驻用户有10000+,即使短短半分多钟,也会收到一堆投诉。基于此,我们梳理了一套平滑发布的方案。


实施方案

1、跟nginx代理服务器约定了一个健康检查的接口


2、通过接口返回的http状态码来让ngx是否分流用户请求(这个我们单位的技术部那边有标准的做法)


3、根据提供的这个服务健康检查的接口:nginx判断只要某个实例的接口返回5xx的状态码,即把该实例下线(nginx不会把流量转发到该实例)


image.png


发布流程

目的主要是为了发布的时候能够平滑发布,所以QA与开发人员在发布得时候按照如下步骤操作:


1、打开系统的nginx列表管理页面:[/publish/ngxconfig]


2、下架某一个实例(假设系统集群有A、B、C个实例),比如A实例


image.png


3、查看是否下架成功:这个就是我们跟nginx约定的健康检查接口,正常在线状态下是200的statu,切离线后,这个接口返回的是401的statu。


在线情况:


image.png


离线情况:


image.png


4、观察监控站点,直至该实例下的Req、Connnectiuon流量都消失


image.png


5、在该实例下进行版本发布


6、打开Fidller,host到待发布的实例,然后判断是否发布成功(发布dll、配置文件时,IIS站点会短暂重启)


7、QA同学走查灰度的A实例服务器,保证它正常运行,如此循环,直到所有服务器都发布。


进一步ABTesting的优化

背景

平滑发布做完之后,确实给我带来很大的便利,不用每次发布都发公告,不重要的或者非功能性的内容发布了就是了。


但是用久了,客户量上去之后,又遇到一个问题,那就是每一次业务大变更,大型发布都是直接发布到生产,这样可能存在风险。设计师设计的功能,用户不一定完全接受,一旦上线新版本,


收到一大堆的吐槽,都是用户呀,如果能在小范围人群内进行灰度试用,完成平稳的过度和使用反馈之后,优化后再上到生产会更好一点。


所以这边需要思考和设计一套统一的技术方案,未来无论云办公还是其他的业务系统,都能通过灰度发布在可指定的小范围内先进行体验和功能验证。


基于上面的平滑,我们在Nginx反向代理服务器上动心思,让nginx来帮我们做ABTesting的方案。以下是我们尝试的几种方案:


1、Nginx反向代理:来路IP策略

流程

image.png


步骤

1、进入云办公系统,进入Nginx反代服务器


2、Nginx读取来路IP的AB名单


3、根据IP AB名单进行流量转发(名单A走特定实例,名单B走云办公原有集群实例)

server {
    listen 80;
    server_name officecloud.com;
    access_log officecloud.com/logs main;
    ip_list 192.168.254.4,192.168.254.170
    set $group default;
    if ($remote_addr in iplist) {
        set $group ACluster;
    }
    location / { 
        proxy_pass http://$group;
        proxy_set_header Host $host;
        proxy_set_header X-Real-IP $remote_addr;
        proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for;
        index index.html index.htm;
    }
}

优缺点

1、配置简单,原资源平台的灰度升级就是根据IP名单来划分设计升级的


2、外部计算机很多都是非固定IP,这个适合在公司内网实现,比如只是配置公司内网的IP。


2、Nginx反向代理:$.Cookies策略

流程

image.png


步骤

1、进入云办公系统,进入Nginx反代服务器


2、Nginx读取Http请求的Cokie的version信息(也可以是别的key)


3、根据Key的版本来进行流量转发(比如Version1.1走特定集群,Version1.0走通用集群实例)

server {
    listen 80;
    server_name officecloud.com;
    access_log officecloud.com/logs main;
    ip_list 192.168.254.4,192.168.254.170
    set $group default;
    if ($http_cookie ~* "version=V1.0"){
        set default;
    }
    if ($http_cookie ~* "version=V1.1"){
        set $group ACluster;
    }
    location / { 
        proxy_pass http://$group;
        proxy_set_header Host $host;
        proxy_set_header X-Real-IP $remote_addr;
        proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for;
        index index.html index.htm;
    }
}

优缺点

1、配置简单,根据Nginx的 $COOKIE_version 属性来判断


2、相对稳定,对需要开放名单的用户,在Cookie头部加入特定的版本即可,应用只要少许的开发量


3、首次访问静态页面可能不会产生cookie


备注:这是团队内认为最好的Nginx代理方案,同理,User-Agent和Header都可以做此种类型的判断,但是Header需要侵入底层HttpRequest去业务添加,不建议。


3、AB集群+业务代理方式

流程

image.png


步骤

1、进入云办公系统,两种方式进入系统,一种是登录页登录:/login ,一种是default页面带uckey登录:/default?usertoken=#usertoken#


2、登录的时候和usertoken传入的时候进去 路由代理模块,进行用户信息校验,根据不同的人员和部门(人员和部门配置归属AB名单)分流到两个不同的AB集群


3、根据转发跳到具体的实例集群域名下(可以配置AB集群拥有不同域名,更容易区分)


优缺点

1、与Nginx剥离,不用依赖公司的通用平台和技术部的实现


2、需要申请AB集群,AB集群拥有不同的域名。


3、如果是前后端分离情况下,需要保证静态站点和服务站点均申请AB集群


4、所有入口需要统一做代理,有一定的开发量


应用

目前手上2个系统已经根据该方案实现了


参考资料:https://github.com/CNSRE/ABTestingGateway


ABTestingGateway是新浪开源的一个动态路由系统。ABTestingGateway是一个可以动态设置分流策略的灰度发布系统,工作在7层,


基于nginx和ngx-lua开发,使用redis作为分流策略数据库,可以实现动态调度功能。



相关文章
|
1月前
|
测试技术 Nacos 开发工具
灰度发布:揭秘背后的原理与实践浅见
揭秘灰度发布背后的原理与实践浅见
125 2
|
1月前
|
自然语言处理 Cloud Native 开发者
【2023年度技术盘点】「年终盘点后端系列」探索服务架构体系的技术风向,构建微服务核心能力(升级版)
回顾过去的几年,我们目睹了科技界的快速发展,其势头如同一列驶向前方的高速列车。作为后端开发者,我们见证了每一次技术革新所带来的广阔前景。这些创新不仅深刻影响着我们的工作方式,而且不断引领我们走向未来。
83 1
|
架构师 微服务
【业务架构】业务架构师要知道的业务能力热图
【业务架构】业务架构师要知道的业务能力热图
|
架构师 微服务
「业务架构」业务能力的热图是什么,有啥用?
「业务架构」业务能力的热图是什么,有啥用?
|
Web App开发 搜索推荐 安全
【MarTech参考架构】Credera的MarTech参考架构第6部分:AdTech趋势、参与者和衡量
【MarTech参考架构】Credera的MarTech参考架构第6部分:AdTech趋势、参与者和衡量
|
Kubernetes 安全 机器人
Lyft 微服务研发效能提升实践 | 3. 利用覆盖机制在预发环境中扩展服务网格
Lyft 微服务研发效能提升实践 | 3. 利用覆盖机制在预发环境中扩展服务网格
1205 0
Lyft 微服务研发效能提升实践 | 3. 利用覆盖机制在预发环境中扩展服务网格
|
弹性计算 缓存 Kubernetes
【音频】微服务线上发布稳定性解决方案|学习笔记
快速学习【音频】微服务线上发布稳定性解决方案
139 0
|
存储 NoSQL 关系型数据库
博客站的架构渐进升级优化,亿级日写量架构又是什么样呢?
博客站的架构渐进升级优化,亿级日写量架构又是什么样呢?
博客站的架构渐进升级优化,亿级日写量架构又是什么样呢?
|
负载均衡 测试技术 微服务
分布式中灰度方案实践
将版本的分支号加载到服务的元数据信息中,再结合服务名称或者IP地址,来实现对服务列表的多维度过滤,可以支撑大部分轻量级灰度策略的实现。
409 0
分布式中灰度方案实践
|
运维 监控 Cloud Native
直播预告 | 全新定义业务观测新范式,让稳定更有力量
2022年8月18日下午14:00-16:00,蚂蚁数字科技将举办以“业务观测新范式,让稳定更有力量”为主题的线上发布会,不仅邀请了可观测领域大咖分享行业趋势,详细解读蚂蚁集团在云原生及可观测领域的技术及实践成果,同时还有四位大咖展开圆桌对话,共同探讨可观测性在系统稳定中的价值与挑战。
142 0
直播预告 | 全新定义业务观测新范式,让稳定更有力量

热门文章

最新文章