新型冠状病毒肆虐,为了防止疫情蔓延,社会各界纷纷延期复工和开学。但同时教育部也提出要利用线上模式保障防控疫情期间学生们“停课不停学”。
各大学校与教育机构响应号召,使得近期在线教育需求激增。在线教育学生的学习时间较为集中,高峰时段呈现出大流量、高并发的特点,对在线教育机构的业务弹性和稳定性提出极大挑战。
面对突增流量压力,如何迅速动态弹性扩容以及高效管控运维成为迫切问题,原有的架构方案亟需有效升级。
阿里云的弹性裸金属服务器(神龙)+容器的解决方案,可以完美满足类似场景,深受在线教育企业认可,并被数家网上教学、远程协作平台企业应用。这不仅提升了系统整体的可用性和可靠性,也大大简化业务应用开发迭代流程,从繁重的IT系统支撑工作,转向在线业务的研发与用户的支持,“疫情期间”轻装上阵。
弹性裸金属服务器基于阿里云自研的神龙X-Dragon架构,神龙将网络/存储的虚拟化开销offload到一张叫MOC卡的FPGA硬件加速卡上,降低了原ECS约8%的计算虚拟化的开销,同时通过大规模MOC卡的制造成本优势,摊平了神龙整体的成本开销。
神龙类物理机特性,可进行二次虚拟化,使得对于新技术的演进发展留足了空间,对于采用一些多样的虚拟化的技术,像Kata、Firecracker等成为了可能。
这使神龙与容器形成了天作之合。经阿里巴巴618测试数据显示,容器运行在云上神龙反而比非云物理机的性能要好10%-15%。主要是因为虚拟化开销已经offload到MOC卡上,神龙的CPU/Mem是无虚拟化开销的,而上云后运行在神龙上的每个容器都独享ENI弹性网卡,性能优势明显。
基于容器化构建方式,可以满足业务快速发放和弹性的要求。底层采用神龙弹性裸金属服务器,配合容器服务一起,可以满足在线教育大流量、高并发、高稳定、低成本的业务诉求。
该方案具备如下五大优势:
1、极致性能、利用率提升:阿里云容器K8S服务可直接运行于阿里云裸金属(神龙)服务器上,CPU和内存无任何虚拟化性能损失,同时基于神龙技术架构优势,使得整体性能比同等配置物理机更优。在广泛的容器化场景中,使用Kubernetes的容器调度能力,可以实现应用的混布,提升3倍以上的资源利用率,充分利用到神龙(X-Dragon)弹性裸金属服务器的极致性能,打造更高性价比。
2、快速创建、极简运维:相比传统物理机数小时交付,弹性裸金属(神龙)服务器可分钟级完成实例创建和启动,并利用Kubernetes的调度和编排能力,通过阿里云容器k8s服务与阿里云基础设施的紧密协同(SLB, VPC, NAS, SLS等等),在非常短的时间内,支持业务极速部署,极大的简化、降低了运维的成本,并且提高了在线教育业务架构自动化程度,满足高峰时段弹性需求。
3、增强网络功能和性能:相比传统物理机,弹性裸金属(神龙)服务器可支持32块甚至更多的ENI弹性网卡,阿里云K8S Terway容器网络,配合多ENI弹性网卡,可充分发挥神龙服务器高带宽,高PPS特性,容器间跨主机的网络带宽相对宿主机几乎无性能损耗,高质量地支持高峰时段大流量和高并发的网络请求。
4、物理级别的隔离+应用层面的加密:弹性裸金属(神龙)服务器的CPU和内存具备零虚拟化和彻底独占的特点,具备更高的安全隔离性,保障服务器的平稳性。
5、高容错性与多可用区冗灾:弹性裸金属(神龙)服务器的宕机自动迁移恢复结合K8S的容器容错漂移,大大提高了系统的高可用性,以及极大的提高了运维的自动化纠错能力。同时基于弹性裸金属(神龙)服务器的多可用区部署,阿里云K8S将实现真正意义的物理级别机器上构建应用的跨地域冗灾,为在线教育业务的可用性保驾护航。
参考资料:
2684 亿背后的虚拟化技术:双 11 All on 神龙 | 问底中国 IT 技术演进
阿里巴巴大规模神龙裸金属 Kubernetes 集群运维实践
弹性裸金属服务器(神龙)产品页
阿里云上万个 Kubernetes 集群大规模管理实践