Autodesk基于Mesos的可扩展事件系统

简介:

几个月前,我接到一个任务,要拿出一个集中式的事件系统,可以让我们的各种后端组件相互通信。我们讨论了后端活动流、渲染、数据转换、建筑信息模型(BIM)、个性身份(identity)、日志报表、分析等等。找寻其中是否有真正通用的可变负载、使用模式和扩展性配置。或许是其他的某样东西,能使我们的开发团队轻松接口。当然,系统的每个部分都应该具备自我扩展的能力。

由于我没有时间写太多的代码,所以我选择了Kafka作为我们的存储核心,因为它稳定且被广泛使用,而且表现良好(请注意,我没有说非得用它不可,可以用其他东西替代)。当然,现在我还不能直接将Kafka暴露出去,得在前端用一些API去实现这些。没想太多,我就放弃了在我的后端管理偏移量的想法,因为这在为实例处理失败时,会给人带来太多的约束。

所以我的结论就是,将系统分为独立的两层:第一层是API层,负责处理请求流(incoming traffic);第二层是后端层,负责处理长期的、有状态的、与Kafka交互的流处理进程(比如,实现生产者和消费者)。这两层都可以独立扩展,只要求它们之间保持一致的路由,以保证客户端可以与相同的后端流处理进程,保持通信。

两层代码均100%使用Scala实现,并使用Play!框架。同时,它们重度依赖Akka actor系统(每个节点通常跑数百个actor)。后端层实现了一组自定义的Kafka生产者和消费者,并使用一组专用的actor来管理预读与写缓冲区。一切都被实现为嵌套的有限状态机(我超爱这个概念)。分析数据存储到Splunk,同时,度量数据存储到Librato(collectd是在容器中运行的)。

在此,哥文艺地展示下系统发布后的模样如何实现两层之间的路由呢?只需使用RabbitMQ即可,它有很好的持久性和弹性,甚至没什么趣味可言。AMQP队列是实现这一简单的“电话交换机”模式的伟大方法。通过使用一些逻辑分片技术(比如对一些存在于每个事务中的cookie值进行散列或者类似的技术)将一组固定的后端节点关联到某个RabbitMQ broker,就能够让路由支持扩展,这简直是小事一桩。

为什么我没有对RabbitMQ的broker做集群?哇哦,我能说我懒吗,关键是我真心觉得没啥必要。在每个broker之间分流实际上是为了高效,而在我看来,更重要的是以更轻松的方式去控制。为此付出的额外工作相比收成毫无意义。

所以,总之,给定容器拓扑,我们的请求会保持一条特定路径,这条路径依赖于后端节点所处理的流会话。我们所需的每一层可独立扩展远比整体可扩展重要。唯一的实际限制将是虚拟网络适配器和带宽。

虚线表示给定的会话将保持的特定路径。

现在,我们开始有意思的部分吧:如何确保可靠的通信,避免拜占庭式的失败呢?我要说,这非常简单,只需使用简单的两阶段提交协议,在客户端和后端同时建立状态机镜像模型(例如,他们总是同步的)。读写操作需要显式的确认请求。当你尝试读取并且失败的时候,你只需重新尝试,直到获得确认,然后这个确认将改变后端的状态(比如,向前移动Kafka的偏移量或者下发定时任务将事件发布)。所以我的客户端和后端之间的传输流实际上是这样的:“allocate session”、“read”、“ack”、“read”、“ack”......“dispose”。

这一系统的巨大优势是有效地实现了操作幂等,而且没有任何烦人的声明语句,就可以编码状态机中的所有逻辑(我告诫自己:我要提供一个纯粹的功能实现,没别的,只为了炫技)。应对任何网络故障,当然是优雅地重新尝试。通过这种方式,还可以得到自由的控制流和背压技术。

这个系统的API会暴露为Apache Thrift(当前通过HTTPS协议使用压缩技术工作,计划在某个时间点迁移到普通的TCP层)。我提供了Python、Scala、.NET和Ruby语言的客户端 SDK,以应对我们在Autodesk所使用的、花样百出的技术)。请注意,Kafka偏移量是由客户端管理的(虽然这样不透明),这使得后端控制更简单。

稍等,我听见你说,如何处理后端节点宕掉的情况?哇哦,因为我们有两阶段协议,所以我们在读取数据的时候并不会真的获取:如果客户端不断地失败,将使用当前的偏移量,重新分配一个新的流会话。当向 Kafka写入数据时,麻烦来了,因为这个过程是异步并且潜在地受下行流背压(比如你的节点失败了并且Kafka broker也出现问题了)。我会将后端节点配置为正常关机,在等待任何写挂起时,传入的任何请求都会快速失败。最后一招,我们甚至可以将任何待处理的数据刷新到磁盘上(之后,重新将数据注入)。

稍等,我听见你又说,如果基础设施的一部分挂掉会怎样?同样的。与流会话处理的实际后端节点之间的通信中断,当然会慢下来,但不会再有什么讨厌的影响,这又要归功于两阶段协议喽。

哦,我忘了说,在将数据写入Kafka日志前是自动加密的(使用AES 256)。Kafka的生产者和消费者使用同一套密钥共享。在涉密的主题上,我可以让流会话通过OAUTH2来验证,对每个请求验证MD5-HMAC,走TLS到后端集群。

现在你又问,那么,我们如何完整地部署这个时尚最时尚的系统呢?嗯,我们将整套系统100%地运行在一个普通的Mesos/Marathon集群上(现在用的不是DCOS哦,但我们可以切过去,因为这样可以用上他们超赞的仪表盘)。集群托管在AWS EC2上,我们基本上整体复用了一些 c3.2xlarge实例(在给定的区域内,10到20个小型部署足够了)。请注意,我们可以在Kubernetes上(无论是EC2还是GCE)做同样的事情。

小秀一下我们技术栈的结构

每处部署都使用了我们的开源技术Ochopod(自集群容器)。操作被降低到绝对最小值。例如,我们要做一次优雅的构建推送,就拿API层来说,无非是分配一些新的容器,等待他们启动好,然后逐步替换旧部署,这样就可以了。所有这一切都是通过集群中的一个专用的Jenkins slave(它本身也是一个Ochopod容器)完成的!

实际上,我开发了一个叫Ochothon的迷你PaaS系统,只是为了能够快速开发/运维所有的容器。

(点击放大图像)

Ochothon CLI显示了我的一个预发布集群的情况

为了能让你感受Ocho-*平台是多么好用,我这样说吧,一个人(比如我)就能够管理跨2个区域的5个部署系统,包括所有的基础设施副本……此外,还能有时间写写博客、码码程序!

所以,总体来说,此间的设计和编码,整件事情都充满乐趣,再加上它现在已经在生产运行,是我们云基础架构任务的关键部分(这是一个还不错的打赏)。如果你想对这个奇葩的流系统有更多的了解,告诉我们哦!

目录
相关文章
|
3月前
|
存储 Android开发 开发者
深入理解安卓应用开发的核心组件
【10月更文挑战第8天】探索Android应用开发的精髓,本文带你了解安卓核心组件的奥秘,包括Activity、Service、BroadcastReceiver和ContentProvider。我们将通过代码示例,揭示这些组件如何协同工作,构建出功能强大且响应迅速的应用程序。无论你是初学者还是资深开发者,这篇文章都将为你提供新的视角和深度知识。
|
6月前
|
iOS开发 开发者 UED
探索iOS开发中的SwiftUI框架:构建现代应用程序的桥梁
本文深入探讨了SwiftUI框架在iOS开发中的应用,揭示了其对提升开发效率和改善用户体验的重要性。通过分析SwiftUI的设计哲学、核心组件以及与旧有开发模式的比较,文章旨在为读者提供关于如何利用SwiftUI构建现代化应用程序的实用指南。
|
8月前
|
缓存 监控 NoSQL
使用Elixir进行可扩展的Web服务开发
【5月更文挑战第30天】本文探讨了使用Elixir进行可扩展Web服务开发,Elixir基于Erlang/OTP,提供并发、分布式处理和容错能力。Phoenix框架助力构建实时Web应用,支持WebSocket。实现可扩展性涉及并发处理、分布式架构、数据库优化、缓存策略及监控告警。实践案例显示,Elixir和Phoenix能有效应对高并发场景,适用于构建高性能Web服务。
|
Docker 微服务 容器
高性能、可扩展、跨平台的实用工具 Gloo 亮相 DockerCon,现代化应用即可拥有!
DockerCon 最后一天的闭幕演讲中,来自 Solo.io 的 Idit Levine 展示了 Gloo ,一款可以将环境中的所有组件粘合在一起的工具。 Gloo 是基于 Envoy 具有高性能、可扩展、跨平台功能的 Gateway。
6127 0
|
Java 数据库 算法
《Akka应用模式:分布式应用程序设计实践指南》读书笔记9
性能   这也是一个比较大的问题,因为性能不一定是Akka本身的问题,还可能是你代码写的有问题。   优化的第一步就是找出性能的瓶颈,隔离出应用程序里面比较耗时的部分,然后尝试对其优化,减少需要耗费的时间成本。
1714 0
|
缓存 运维 数据库
《Akka应用模式:分布式应用程序设计实践指南》读书笔记8
可用性   简单点来说就是系统能否正常使用。如果系统能够及时响应一个请求,则认为是可用的;如果响应时间过长或者根本不响应,则是不可用的。系统在停机或超载时是不可用的。一般用系统正常运行时长的百分比来计量系统的可用性,例如常常用N个9表示系统的可用性。
1931 0
|
存储 缓存 NoSQL
《Akka应用模式:分布式应用程序设计实践指南》读书笔记6
一致性和可扩展性   一致性是系统内比较复杂的属性,它会随着系统的变化而变化。简单来说,一致性就是数据保持一致,在分布式系统中,可以理解为多个节点中数据的值是一致的。一旦系统具有并行性(分布式只是并行的一种表现),保持一致性就变得困难了,毕竟需要协调全局状态。
1428 0
|
运维 Java
《Akka应用模式:分布式应用程序设计实践指南》读书笔记7
容错   容错绝对是分布式系统最难搞定的事儿,至少我这样认为,因为意外总是会发生。   处理故障在许多方面意味着要放弃全局一致性。Akka是基于不粗要调用方负责处理故障的想法而建立的。它主张由发生故障的actor负责处理问题,在actor不能处理的情况下,会向其“监督者”寻求帮助。
1767 0
|
前端开发 调度 安全
《Akka应用模式:分布式应用程序设计实践指南》读书笔记4
优秀的Actor设计   我看到这一章节真是如获至宝,毕竟它阐释了如何使用Akka,以及优秀的设计模式。 大系统小做   其实作者想告诉我们的是要尽量提前关注actor级别的设计,而不是仅仅考虑大的架构。
1705 0