阿里毕玄:系统设计之达成目标的核心问题

简介: 上两篇讲了系统设计的两个问题,一是为什么要建设或重构系统,确保系统设计的出发点的正确性,二是根据建设系统的目的形成可衡量的目标,确保最终产出的系统,这篇讲如果要达成系统设计的可衡量的目标,到底面临了一些什么核心问题,只有明白了面临什么核心问题,才能更加明确的进行系统设计来解决这些问题。

作者:毕玄   
文章来源:微信公众号HelloJava

上两篇讲了系统设计首先要考虑的两个问题,一是为什么要建设或重构系统,确保系统设计的出发点的正确性,二是根据建设系统的目的形成可衡量的目标,确保最终产出的系统和最初建设的系统的目的是一致的,这篇接着继续讲,如果要达成系统设计的可衡量的目标,到底面临了一些什么核心问题,只有明白了面临什么核心问题,才能更加明确的进行系统设计来解决这些问题。

还是用我自己的经历来讲这个话题。

最开始做HSF的时候,为什么要做HSF是比较清晰的,在可衡量的目标上也有一个大概的要支持每条上亿的服务调用,但由于当时的技术功底问题,导致了在提炼核心问题上是有很大差距的,这些也造成了后来HSF总是不断的重构、修修补补之类的,所以我从来就不认为技术功底不好的人能做好一个架构师,架构师绝对不是看到的随手画几个框那么简单,那通常只是个结果,但要合理的把框画出来是需要基于非常坚实的技术功底,HSF在最初设计时认为的核心问题就是怎么实现一个易用有服务定义的RPC框架,但对于如何支撑好上亿的交互调用量,服务化上线后给业务研发会带来什么问题(例如排查问题变复杂了),在核心问题上是有很大的缺失的,例如HSF上线后才发现的中间的负载均衡的问题,而这个问题是导致了HSF结构重新设计的,这个后来回头看就会发现如果是一个知识面更广的架构师可能一开始就会想到这个核心问题,所以如果回过头去看,HSF这样的框架,要达成目标,要解决的核心问题应该是:

  1. 易用、能支撑上亿次服务交互的RPC框架;
  2. 服务间的软件负载均衡问题;
  3. 服务交互的问题排查;

在做T4(容器)的时候,目的、目标都还比较清晰,问题的提炼现在回顾也做的还ok,T4要解的核心问题为如何实现在一台机器上跑20个应用,T4出现的问题更多是对于核心问题的设计方案上,这个到下篇讲围绕核心问题的系统设计上再写。

到了做异地多活的时候,目的、目标的清晰化都ok,对于异地多活而言,要做到在中国多个城市都可同时支撑流量,并且可在几十秒内完成流量切换,异地多活中物理距离所带来的网络延时是不可突破的,怎么做到多地活且流量可动态切换,要做到这个,面临的核心问题是:

  1. 如何将流量进行切分,且让请求的整个处理过程能封闭在local完成;
  2. 如何保障异地多活后的数据一致性?

到了最近几年做统一调度的时候,整个做系统设计的思考框架我觉得算是比较熟练了,所以统一调度的目的、目标都很清晰,结合当时的情况,要实现统一调度的目标,其面临的核心问题是:

  1. 如何实现一套在线业务资源的调度系统去满足各种资源诉求?
  2. 如何尽可能扩大统一的资源池,解决资源池统一面临的资源竞争、资源被抢、多种不同资源规格等问题?
  3. 如何实现在线业务、离线任务两套调度系统的互通?
  4. 如何解决在线业务、离线任务混合部署时的资源竞争的问题?

从上面的这些cases来看,可以看到,从可衡量的目标映射到技术层面要去解决的核心问题,是很需要技术功底的,对于工程类型的项目、产品而言,工程经验在这个时候也会特别重要,而通常我也觉得这是衡量一个优秀架构师很直接的地方。

在提炼出了问题后,就可以开始围绕问题来进行核心的设计,在这个部分也是走了不少弯路,才逐渐意识到架构师必须具备的一些能力。

这个系列的文章会按照聊聊系统设计的套路来写,写的时候会理论结合实践,实践主要是讲我自己在相应的点上的一些经历:

  1. 系统设计之系统建设的目的
  2. 系统设计之系统建设的目标
  3. 系统设计之达成目标的核心问题 - 本文
  4. 系统设计之解决核心问题的设计
  5. 系统设计之设计原则

作者简介:

IMG_20190813_191335.png

毕玄,2007年加入阿里,一手打造了HSF,十多年来更见证参与了阿里在基础技术上的演进与发展:如淘宝在2007-2009年的分布式应用架构升级、2013-2016年的阿里电商异地多活架构升级等。

相关文章
|
Java 程序员
收藏!阿里毕玄16篇文章,深度讲解Java开发、系统设计、职业发展
阿里毕玄结合自己的经历深度讲解Java开发、系统设计、职业发展等问题,快来一键收藏吧。
35433 1
|
机器学习/深度学习 自然语言处理 数据处理
大模型开发:描述长短期记忆网络(LSTM)和它们在序列数据上的应用。
LSTM,一种RNN变体,设计用于解决RNN处理长期依赖的难题。其核心在于门控机制(输入、遗忘、输出门)和长期记忆单元(细胞状态),能有效捕捉序列数据的长期依赖,广泛应用于语言模型、机器翻译等领域。然而,LSTM也存在计算复杂度高、解释性差和数据依赖性强等问题,需要通过优化和增强策略来改进。
1005 1
|
开发框架 Java Maven
SpringBoot入门教程(超详细)
SpringBoot入门教程(超详细)
SpringBoot入门教程(超详细)
|
运维 监控 安全
构建高效运维体系
本文将探讨如何通过科学的方法与先进的技术,实现高效、稳定、安全的IT运维管理。我们将从运维流程优化、自动化工具应用、监控告警机制、故障应急处理以及团队建设等方面,全面解析高效运维体系的构建方法与实践。
420 20
|
消息中间件 程序员 调度
简单高效!本地消息表助你轻松实现分布式事务
本文由小米分享,介绍如何使用本地消息表解决分布式事务问题。分布式事务在微服务架构中变得复杂,本地消息表提供了一种简单高效的方法。它通过在同一事务中处理业务操作和消息记录,然后异步发送消息,确保数据一致性。文章详细阐述了本地消息表的原理、实现步骤、优势及不足,强调了其实现的简单性、高性能和高可靠性,但也指出其潜在的开发复杂度和延迟性问题。
2452 9
|
Cloud Native IDE Java
阿里云spring脚手架如何接入
阿里云spring脚手架如何接入
1324 2
|
SQL 前端开发 Java
Java的学习路线(非常完整)
Java的学习路线(非常完整)
9325 3
Java的学习路线(非常完整)
|
缓存 关系型数据库 MySQL
MySQL 索引优化以及慢查询优化
通过本文的介绍,希望您能够深入理解MySQL索引优化和慢查询优化的方法,并在实际应用中灵活运用这些技术,提升数据库的整体性能。
957 7
|
安全 前端开发 Java
SpringBoot接口设计防篡改和防重放攻击
本文介绍了API接口的安全问题及解决方案,包括防止接口参数被篡改和重放攻击的方法。主要措施有:使用HTTPS传输、参数加密、时间戳签名验证等。并通过创建过滤器对请求参数进行签名验证,确保接口的安全性。
1660 10
|
机器学习/深度学习 数据采集 算法
回归算法全解析!一文读懂机器学习中的回归模型
回归算法全解析!一文读懂机器学习中的回归模型
1849 0

热门文章

最新文章