引入阿里云弹性计算,微博和阿里云实现双方史上最大规模混合云

简介: 到2017年,包括微博的Feed、广告、搜索、话题、视频、直播、手机微博、图片等多个核心业务系统已部分迁移至了阿里云平台,除夕期间的“红包飞”业务则100%架构在阿里云上。由于微博的用户规模和业务体量以及特殊的社交媒体特性,微博与阿里云不仅实现了双方史上最大规模混合云,而且在全球范围来看也是极具代表意义。
c4d6d160b8e38227e5d40ec75953e8b43008d44a

2015年5月29日上午,李晨与范冰冰在新浪微博上晒出甜蜜合影并配文:“我们”,承认了两人正在热恋中。这股“我们”风潮在创造了微博2小时阅读量超1000万的记录,联合国的官方微博也趁热晒出了一张前联合国秘书长潘基文与妻子的合影。

然而,谁也不会想到,娱乐圈的蝴蝶扇动了一下翅膀,竟引发了中国科技界的一次创新,促成了微博与阿里云史上最大规模的混合云实践。当流量激增形成脉冲计算,要保证系统的稳定性和服务的正常运转,唯一的办法就是快速扩容,甚至实时扩容。“晨冰恋”话题发酵期间,新浪微博开始引入阿里云的弹性计算资源来应对流量短时高峰。

到2017年,包括微博的Feed、广告、搜索、话题、视频、直播、手机微博、图片等多个核心业务系统已部分迁移至了阿里云平台,除夕期间的“红包飞”业务则100%架构在阿里云上。由于微博的用户规模和业务体量以及特殊的社交媒体特性,微博与阿里云不仅实现了双方史上最大规模混合云,而且在全球范围来看也是极具代表意义。

微博独特短时流量高峰现象

根据2017年2月发布的第四财季报,微博表现出强劲营收和盈利能力增长。与此同时,也频繁出现了微博短时间内流量冲高的独特社交媒体现象。媒体和明星名人集中选择微博作为独家发布平台,奥运会期间有近300名运动员发布微博,总互动量接近5.79亿。而霍建华与林心如婚礼等明星公众事件,都给微博造成了短时流量冲高的挑战。

“(晨冰恋)那一次由于峰值流量迅猛且持续时间长,信息流业务受到很大影响,由此我们开始深入研究云计算技术以及如何利用公共云应对流量瞬时高峰。”微博研发中心研发总监刘道儒认为,对于微博来说,需在十几分钟内完成上千台服务节点扩容。如果仅为应对流量高峰而常备一两千台空闲服务器,这对公司来说成本也太大。这就是后来与阿里云合作的起因。

2015年“晨冰恋”之后,接下来一个里程碑事件就是2016年 8月的奥运会,创造了当时微博新的历史峰值,而且是持续的峰值。就是在此奥运期间,微博内部通过DCP平台弹性调度上云的业务都经受住了流量冲击,而没有弹性上云的业务则或多或少受到了影响,也由此引发了后来微博内部核心业务的大规模上云。

除了用户和流量的持续增加外,视频内容的增加也给微博带来了流量增点,这些都需要依赖可靠的IT支撑。

基于Docker的无人值守混合云

微博平台核心总体分为前端和后端平台,前端主要是PC端、移动端、开放平台以及企业开放平台,后端平台主要是Java、PHP编写的各种接口层、服务层、中间件层及存储层。就平台前端来说,每日超过千亿次的API调用、超过万亿的RPC调用,产生的日志就达百T+。这么大体量的业务系统对于运维的要求也很严格,例如接口层的SLA就必须达到4个9,接口平均响应时间不能高于50ms。

每年的元旦、春晚、红包飞等会为微博带来巨大的流量挑战,这些业务场景的主要特点是:瞬间峰值高、持续时间短。每一次峰值事件的互动时间在3小时左右,而明星事件、红包飞等业务,经常会遇到高达多倍的瞬间峰值。微博IT的传统应对手段,主要是“靠提前申请足够的设备保证冗余、降级非核心及周边的业务”这两种,除了需要提前预知相关IT成本外,还有业务负载饱和度不一、扩缩容流程繁琐且周期长等问题。

微博研发中心资深架构师付稳介绍说,为了更好的应对微博这种特殊的业务场景,微博基于云计算等新技术设计与实现了新一代基于Docker的混合云平台DCP(DockerContainer Platform)。DCP目前已经具备20分钟将服务器部署规模扩大1倍的交付能力,并在2015年和2016年的双11、三节(圣诞、元旦、春晚)、红包飞等场景中得到了很好的考验,覆盖了100%的微博业务线,包括手机微博、红包飞等。

所谓20分钟内弹性扩容1倍服务器规模,即阿里云要满足10分钟内完成上千台服务器的创建与交付,同时,微博DCP平台则在接下来的10分钟内完成服务器的初始化、服务调度、上线等全流程,包括操作系统的安装、Docker及运维软件环境的安装、各种授权、服务的启动、流量的引入、上线等,这些全部在20分钟内完成。

付稳介绍说,DCP目前已经实现全自动化的“无人值守”式运维,只需要人工填写所需设备的数量后,运维软件会自动完成向阿里云的申请、扩容和缩容等工作而无需人工参与。

混合云的关键之一是实现双方资源的无缝衔接,专有网络VPC是核心功能。为此,双方在2017年春节期间部署开通了超100Gb的专线。“这也是目前行业内几乎没人做过的超大规模双冗余百Gb专线”,参与该项目的阿里云工程师陆震洧介绍。

改造后,阿里云资源和微博原有的数据中心组成了可称之为无边界的计算资源池,对业务系统来说无区别,但扩容更加灵活快捷。微博实现了从提前扩容到实时扩容的升级,可以结合实际的流量负载与实时数据对预估峰值进行动态调整。

2017年春晚,微博首次实现了全业务无降级的混合云架构实践,平稳渡过了流量新高峰,在阿里云部署了近5000台服务器,这一数字在2016年的除夕夜是1400台。

微博与阿里云在混合云方面的合作,云服务器ECS的弹性计算仅是开始。平台所应用的产品还包括负载均衡、对象存储OSS、缓存服务、专有网络VPC等计算、存储、网络、数据库相关服务,以及CDN、视频直播服务、安全滤网、OCR图片鉴黄、大数据等等,“几乎阿里云所有的核心产品都在用。”

创造社交媒体新历史

“10分钟将服务器部署规模扩大1倍,20分钟内完成所有的调整和上线,这在国内还处于非常领先的水平。绝大多数国内技术团队做不到,这是因为他们没有把这件事情标准化,主要原因是没有业务动力。”刘道儒表示微博业务的独特性造就了国内社交媒体史上最大规模的混合云。

“混合云项目在微博内部拿了创新大奖,峰值流量来临时,外部让用户可以无感知地使用微博,双方的成功也是一个很好的混合云模式。包括病毒式话题扩散速度、明星事件等对云上弹性扩容和高效要求,很多都没有条件提前验证,而是双方一起合作、消灭了各种问题。”

从单一和基本业务流程再到全业务流程转到阿里云,从半自动化到全自动化,这经历了很长时间的磨合。尤其是在2016年,微博业务会在每天晚上做例行的阿里云动态扩容,晚上8点开始申请到晚上12点下线服务器,通过不间断演练来打磨产品、技术以及双方的合作。

对于微博来说,也在这个过程中完成了DCP全自动化运维平台软件的开发及周边技术体系的建设。刘道儒表示,随着DCP技术的成熟,2016年年底DCP主要功能已通过OpenDCP开源,以供业界用于基于阿里云的混合云管理。这也恰恰让人们看到,IT部门已完成了从成本中心转变为创新中心、价值中心。

经过了2017年春晚的考验,如今微博已经放心地把红包飞业务全部迁移到了阿里云上,同时Feed、手机微博、广告、搜索、话题、视频、直播以及相关的有信、红豆Live等多个业务也完成了服务上云。除了共百GB以上双专线外,微博还在阿里云上实现了双可用区,多VPC专有网络冗余环境。

近年来微博业务受到了广大国内用户的认可以及商业模式受到市场的认可,微博股票就开始了一轮显著上扬的过程,股价到2016年最高接近56美元,比上市时增加200%以上。微博与阿里云共同创造的混合云平台更好的满足了业务快速发展对计算资源的需求,更好地支撑微博新业务的开发以及整体业务平稳运行,而这一成就,却源于一个“晨冰恋”,估计李晨和范冰冰自己也不会想到会对当代云计算产业产生影响与贡献吧。

1379c7a93e7a5afa3c5e866f8bceefd99f349411


来源:云科技时代 作者:宁川

原文链接

相关实践学习
阿里云专有网络VPC使用教程
专有网络VPC可以帮助您基于阿里云构建出一个隔离的网络环境,并可以自定义IP 地址范围、网段、路由表和网关等;此外,也可以通过专线/VPN/GRE等连接方式实现云上VPC与传统IDC的互联,构建混合云业务。 产品详情:https://www.aliyun.com/product/vpc
目录
相关文章
|
2月前
|
弹性计算 监控 开发工具
【阿里云弹性计算】阿里云ECS的网络优化实践:VPC配置与网络性能提升
【5月更文挑战第29天】阿里云ECS通过虚拟私有云(VPC)提供高性能、安全的网络环境。VPC允许用户自定义IP地址、路由规则和安全组。配置包括:创建VPC和交换机,设定安全组,然后创建ECS实例并绑定。优化网络性能涉及规划网络拓扑、优化路由、启用网络加速功能(如ENI和EIP)及监控网络性能。示例代码展示了使用Python SDK创建VPC和交换机的过程。
293 3
|
10天前
|
弹性计算 运维 Kubernetes
阿里云ECS与混合云策略结合,提供云上云下无缝对接,提升业务灵活性和运维效率。
【7月更文挑战第3天】阿里云ECS与混合云策略结合,提供云上云下无缝对接,提升业务灵活性和运维效率。ECS支持多种计费模式和先进架构,保证低延迟计算。混合云融合公有云灵活性与私有云安全,实现资源最优配置。通过VPC互通、应用迁移、数据同步实践,确保安全合规,助力企业数字化转型。阿里云服务展示技术实力,支持企业在混合云时代抓住机遇。
43 3
|
10天前
|
弹性计算 运维 Kubernetes
阿里云ECS与混合云策略的结合,不仅为企业搭建了一个既灵活又稳定的IT基础架构,还为业务的快速发展与创新提供了坚实的技术支撑。
【7月更文挑战第3天】阿里云ECS在混合云中扮演关键角色,提供弹性计算资源和多样计费模式,确保业务连续性与灵活性。通过VPC互通、应用迁移、数据同步服务,如VPC对等连接、DTS,实现云上云下资源的高效整合。结合安全解决方案,保证在混合环境下的合规与安全。阿里云ECS助力企业数字化转型,应对市场变化。
49 1
|
10天前
|
存储 弹性计算 大数据
阿里云ECS以其强大的弹性计算与存储能力,为大数据处理提供了灵活、高效、成本优化的解决方案
阿里云ECS在大数据处理中发挥关键作用,提供多样化实例规格适应不同需求,如大数据型实例适合离线计算。ECS与OSS集成实现大规模存储,通过Auto Scaling动态调整资源,确保高效运算。案例显示,使用ECS处理TB级数据,速度提升3倍,成本降低40%,展现其在弹性、效率和成本优化方面的优势。结合阿里云生态系统,ECS助力企业数据驱动创新。
25 1
|
15天前
|
存储 人工智能 运维
超大规模云网络技术新突破!阿里云斩获中国自动化学会科技进步一等奖
阿里云携手浙江大学、上海交大联合攻坚的超大规模云网络技术及应用成果,斩获中国自动化学会(CAA)科技进步奖一等奖。该成果实现了超大规模云网络调控技术的高性能突破,将十万级任务配置下发提升至秒级的超高水平,填补了该项技术的国内空白。
|
2月前
|
弹性计算 运维 监控
【阿里云弹性计算】ECS实例的生命周期管理:阿里云自动化工具与策略介绍
【5月更文挑战第29天】阿里云提供自动化工具和策略管理ECS实例生命周期,如资源编排服务(ROS)实现一键部署,通过模板定义实例配置;自动化运维服务(OOS)执行自动化运维任务;弹性伸缩策略动态调整实例数量;定时启动/停止策略节省成本;监控告警策略确保业务连续性。通过这些工具和策略,企业可实现ECS实例的高效管理。
71 2
|
2月前
|
弹性计算 运维 监控
【阿里云弹性计算】从物理机到阿里云ECS:企业IT架构转型升级之路
【5月更文挑战第29天】随着云计算兴起,企业正转向阿里云ECS以应对传统物理机的挑战。本文详述了这一转型过程,包括现状评估、迁移计划制定、测试环境搭建、应用数据迁移及后期监控优化。转型升级可提升资源利用率,降低运维成本,加快业务响应,并增强数据安全。示例代码展示了使用阿里云Python SDK创建ECS实例的过程。
162 1
|
2月前
|
机器学习/深度学习 弹性计算 自然语言处理
【阿里云弹性计算】深度学习训练平台搭建:阿里云 ECS 与 GPU 实例的高效利用
【5月更文挑战第28天】阿里云ECS结合GPU实例为深度学习提供高效解决方案。通过弹性计算服务满足大量计算需求,GPU加速训练。用户可按需选择实例规格,配置深度学习框架,实现快速搭建训练平台。示例代码展示了在GPU实例上使用TensorFlow进行训练。优化包括合理分配GPU资源和使用混合精度技术,应用涵盖图像识别和自然语言处理。注意成本控制及数据安全,借助阿里云推动深度学习发展。
164 2
|
2月前
|
弹性计算 Kubernetes 监控
【阿里云弹性计算】阿里云 ECS 与 Kubernetes 集成:轻松管理容器化应用
【5月更文挑战第28天】阿里云ECS与Kubernetes集成,打造强大容器管理平台,简化应用部署,实现弹性扩展和高效资源管理。通过Kubernetes声明式配置在ECS上快速部署,适用于微服务和大规模Web应用。结合监控服务确保安全与性能,未来将深化集成,满足更多业务需求,引领容器化应用管理新趋势。
217 2
|
2月前
|
存储 弹性计算 数据管理
【阿里云弹性计算】ECS实例的冷热数据管理:利用阿里云 OSS 与 ECS 的高效协同
【5月更文挑战第28天】阿里云ECS与OSS协同,实现弹性计算服务的高效数据管理。ECS处理热数据,OSS存储冷数据,降低存储成本,提升性能。通过自动化策略实现数据自动迁移,优化实例性能,适用于电商图片、日志存储等场景。注意迁移策略设置和数据安全,为企业带来更大价值和竞争力。
132 1