分布式系统如拥抱故障？_问答-阿里云开发者社区

分布式系统曾经只是计算机科学博士和软件架构师的领地，受众非常小。但现在不同了。仅仅因为你在笔记本电脑上写程序、无需关心消息如何传递和锁问题，并不意味着你不需要关心分布式系统：

你写的程序发起了多少对外部服务的 API 调用？你的代码是跑在PC 上还是移动设备上 —— 你确切地知道所有可能的设备类型吗？当你的应用正在运行时，它可能遇到哪些网络方面的限制，关于这些你知道多少？当软件到达特定规模时，它会遇到哪些瓶颈，关于这些你又知道多少？在经典分布式计算理论中，我们学到的一件事情是：分布式系统经常会发生故障，而且大都是局部而非全局故障。这些故障不仅难于诊断和预测，而且很难复现 —— 可能是某个特定的第三方数据流没数据了，可能是位于某个你从未听说过的地方的路由器挂掉了。你永远在同短时故障（intermittent failure）作斗争，这注定是一场失败的战役吗？

应对复杂分布式系统的方法并不是简单地增加测试，或者采用敏捷开发流程，也不是采用 DevOps 或者持续交付（continuous delivery）。任何单一的技术或方法都无法阻止类似丰田汽车事故这样的事情再次发生。实际上，类似这样的事情肯定会再次发生。

解决这类问题我们需要拥抱这样一种观念：无法预知的故障种类太多了 —— 我们面对的是一片巨大而未知的未知海洋；此外，还需要改变我们构建系统时 —— 以及运维现有系统时 —— 的思考方式。

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

分布式系统如拥抱故障？