前言
今年双11,申通的系统前所未有的流畅与平稳。
“双11全站跑在阿里云上,亿级包裹洪峰过境,千万级订单毫秒级响应,系统稳如泰山。” 申通上云的技术负责人方遥难掩骄傲地说。
“11月1日凌晨第一波订单高峰到来,整个系统的响应很快,面对超过日常数倍的接单量,系统的响应时间没有变化;在接单、自动化分拣、巴枪扫描、快件跟踪等核心指标上表现稳定;相应的中间件、数据库资源的负载也在合理的区间范围内波动。”方遥在接受媒体采访时表示。
这让他对第二波订单高峰信心满满,上云后的申通系统没有让他失望。
11月6日,方遥盯着屏幕上稳定运行的后台系统,像看自己的孩子。从8月进入双11备战,将近三个月的时间,经历了无数次压测,双11第一波结束,才算轻松下来。作为申通上云负责人,他长久的努力,也在此刻得到了最大的回报。
上云前,申通使用线下机房作为计算及数据存储平台,一到双11资源需求就膨胀,大促之后则闲置浪费;上云后,几乎全部的资源都是按量购买,用完双11就释放,真正做到了开箱即用,不产生一天浪费。与去年双11当天相比,今年11月1到3日,相比此前传统IDC架构方案,在业务量大幅提升的情况下,IT投入反而降低了30%。上云的成效显著。
全站应用容器化,弹性调度稳定高效
在设计全站上云方案之初,方遥就果断决定拥抱云原生并将所有应用100%容器化,技术转型的决策,是来自其强烈的危机感,2019年快递行业业务量达到600亿件,申通业务量达到73亿件,开始向百亿件规模挺进。
选用阿里云容器服务ACK和容器镜像服务ACR,可以为申通带来两大重要好处:业务快速上线、开箱即用的可靠弹性。
在这个快速多变的时代,企业业务“唯快不破”。通过云原生技术可以做到快速上线部署,为团队培养出应用开发与运维的规范化操作,形成了将应用代码打包成容器镜像再到K8s标准化部署的流程,不再需要耗费大量时间人肉发布、也避免了因集群配置不一致而发生故障等问题,成功转型DevOps驱动公司。
其次,快递的业务是非常典型的周期性业务,在业务爆发式增长的时候,资源如何做到开箱即用?而业务突发增长,哪有比双11更具代表的时期呢,今年双11就是申通是弹性调度的绝佳试验场。
当然容器与Kubernetes技术带来的还有更多:依赖Kubernetes为核心的数据中心通过应用编排、业务故障自愈的能力让整个系统更稳;通过监控埋点、业务日志收集、链路监控等手段保证了在快速迭代过程中业务系统的稳定性;通过对计算资源的水位监测,结合业务的峰值情况,弹性扩缩容或降低配规格数量,可以降低整个资源的费用等等。
这个云原生化全站迁云的战役,一场耗时一年有余。
经过数不胜数的需求沟通与技术改造,在申通与阿里云同学们的不断努力下,申通最终成功实现采用云原生技术和架构实现核心业务搬迁上阿里云。
这个决策,为今年双11技术创新埋下了伏笔:比如,应用弹性伸缩大大降低计算成本,一年节省数百万;又比如,快速上线更多创新业务,今年双11的预售商品提前下沉到用户附近,楼上下单楼下发货,提升顾客体验。
“上云只是一个开端,云只是基础设施。”方遥说,“申通的技术架构会朝着下一代微服务架构Mesh演进,提升复杂系统的可治理性。”
阿里云神龙裸金属方案,支撑申通平滑渡过双11
申通核心业务系统原架构基于 VMware+Oracle 数据库进行搭建。随着搬迁上阿里云,架构全面转型为基于 Kubernetes 的云原生架构体系。其中,引入云原生数据库并完成应用基于容器的微服务改造是整个应用服务架构重构的关键点。
综合考虑申通实际业务需求与技术特征,最终选择了「阿里云 ACK+ 神龙裸金属 + 云数据库」的云原生解决方案,实现核心应用迁移上阿里云。
阿里云ACK+神龙裸金属方案,于2020年609云峰会上重磅发布。申通云原生上云的基础设施,就全部使用了阿里云的神龙裸金属服务器。相较于一般云服务器(ECS),Kubernetes 搭配神龙服务器能够获得更优性能及更合理的资源利用率且云上资源按需取量,对于拥有大促活动等短期大流量业务场景的申通而言极为重要。
首先,云原生裸金属方案,可以满足业务快速发放和弹性的要求。神龙裸金属服务器可分钟级完成实例创建和启动,并利用Kubernetes的调度和编排能力,通过阿里云容器K8S服务与阿里云基础设施的紧密协同(SLB, VPC, NAS, SLS等等),在非常短的时间内,支持业务极速部署,轻松应对瞬时峰值场景对系统敏捷性的要求。
第二, 神龙裸金属的性能,加上容器的弹性,形成了天作之合。“容器+神龙裸金属”的解决方案非常契合像双11这种大流量、高并发的场景。
神龙裸金属是云原生的最佳载体,它规格较高,可以实现高密度容器部署。同时,神龙服务器的性能优势明显, 它完全消除了虚拟化损耗,提升8%的计算性能,其类物理机特性,可进行二次虚拟化。新一代容器服务 ACK,可以将最新神龙弹性裸金属实例的强大性能发挥得淋漓尽致。
数据显示,容器运行在云上神龙反而比非云物理机的性能要好10%-15%。因为神龙云服务器不仅无虚拟化开销,而且运行在神龙上的每个容器都可以独享弹性网卡ENI,能提升13%的网络吞吐量。
结语
如果说,快递行业上半场的竞争拼的是规模、服务乃至价格,进入下半场,快递企业们还需要比拼硬核的技术实力。
阿里云基础设施首次支撑申通全站业务系统,申通的双11平稳顺滑,展现了无限潜力。
在申通内部看来,“双11”的逆袭也意味着被申通称为数字化1.0的阶段全部完成。在技术的最终规划中,跨过2.0达到达数字化3.0,必须构建起一个申通大脑,这个大脑不仅包揽一切,还可以自我迭代,是申通智能人格的终极象征,这才是申通自动化转型的终极目标。
阿里云发布云原生裸金属方案:裸金属+容器,解锁云计算的新方式