1.前言:
Aliyun Linux 2是新一代阿里云原生Linux操作系统,为云上应用程序提供安全、稳定、高性能的定制化运行环境,并针对云基础设施进行了深度优化,为您打造最佳的运行时体验。并免费的获得阿里云针对操作系统的长期支持。
容器服务ACK目前已经全面支持AliyunLinux2的节点创建和加入集群,并结合AliyunLinux2的高内核特性提供了多场景的优化。
2.使用AliyunLinux2操作系统镜像的优势:
AliyunLinux2的操作系统是针对阿里云的飞天虚拟化平台开发的,针对阿里云的环境提供了很多优化和新特性,主要包括了:
- 在阿里云上启动最快的Linux发行版,
- 针对ECS大规格虚机、裸金属服务器深度优化,特别是大规格实例的多任务的场景
- 默认安装阿里云常用软件包,如Aliyun CLI,cloud-init等,减少云资源的管理成本
- 精简系统,最小的安全攻击面,最少的系统资源占用
- 更完善的支持体系,在阿里云上提供多种渠道的技术支持体系
- 更及时的软件安全漏洞(CVE)修复
- 支持内核热补丁升级的能力,大大保障漏洞修复时的业务连续性
用户应用实例本身在AliyunLinux2上运行也会有不错的性能表现,其中包含了:
- 针对ECS实例环境大幅优化启动速度,在系统压力来临时快速的扩容启动计算资源,启动速度相对Centos 7提升29%
- 针对ECS实例环境优化了多任务的场景,提升大规格实例多任务的性能,同样规格下能有16%的性能提升
- 更高效的系统调用,系统调用的性能提升11%
- Linux网络栈的优化,综合网络性能相对Centos 7提升7.8%
- AliyunLinux2默认是编译好BBR的拥塞控制算法的,在公网访问较多的场景中允许用户修改拥塞控制算法为BBR,提升公网访问的带宽稳定性
- 针对TLS协议的加密优化
- 支持新的BFQ的IO调度器,降低云盘的延迟
3.容器服务ACK 结合AliyunLinux2的场景优化:
众所周知,阿里内部几乎所有业务都是容器化的,有着多年的企业级容器场景操作系统优化的经验,通过内核级的优化,让容器任务混布的密度提升的同时不影响在线业务的响应。在AliyunLinux2的操作系统和Kernel中包含了这些优化。容器服务ACK针对这些优化特性,提供了多场景的优化,促进容器化业务跑的更快更平稳:
3.1 容器网络优化
得益于AliyunLinux2的4.19的高内核版本,在AliyunLinux2的节点上,容器服务Terway网络插件支持IPVlan的容器网络模式,在小包的场景下相对传统bridge和策略路由网络性能提升40%。
AliyunLinux2默认是编译了BBR的拥塞控制算法的,在公网访问较多的场景中允许用户修改容器的拥塞控制算法为BBR,提升公网访问的带宽稳定性,在容器的公网连接和跨公网的镜像拉取上性能大幅提升。
3.2 安全容器支持和优化
阿里云与 Kata Container 和 Clear Linux 社区合作,在弹性裸金属实例上,用户可以无缝地部署整套 Kata Container 的解决方案,并且还优化了 RunV 容器镜像的启动时间,使得 Kata Container 的整体解决方案可以运行良好。容器服务ACK在此之上,提供了和普通集群体验几乎一致的安全沙箱容器集群,让应用运行在一个轻量虚拟机沙箱环境中,适合于多用户间的负载隔离,对不可信应用的隔离。 在提升安全性的同时,对性能影响也做到非常小。
3.3 节点AutoScaler优化
AliyunLinux2针对ECS实例环境大幅优化启动速度,节点的启动时间相对Centos 7的系统降低29%,结合容器服务ACK灵活高效的自动弹性伸缩,在应用压力来临时,容器服务ACK集群会自动根据负载状况创建和启动ECS的节点加入集群,并调度和启动应用实例,AliyunLinux2的快速的扩容启动的能力让计算资源可以急事满足流量峰值的需求。
3.4 CoreDNS优化
针对UDP协议的conntrack表的占用优化,在容器集群中部署密度高了后经常遇到DNS的解析问题,其实大部分是因为DNS查询的UDP协议对conntrack的占用太多不释放导致,而AliyunLinux2中的conntrack的优化可以让同样DNS查询频率的conntrack表占用减少一半,从而大大提高集群中应用DNS查询的成功率。
3.5 更细粒度的资源监控和控制能力
阿里巴巴在多年容器混布的经验中抽象出很多细粒度的资源的控制能力。在AliyunLinux2的内核中也有包含,提供了针对容器场景的PSI压力模型、per-cgroup kswapd、memory priority等的细粒度可视化和控制能力,在AliyunLinux2的容器服务ACK集群中我们可以通过CGroup Controller来利用这些能力,可以实现细粒度BufferIO Control/TCP/CPUSet/Mem/NUMA等细粒度资源的配置和动态更新,在逐步提升资源利用率的同时也能保障应用间的互相干扰降到最低。
3.6 AI和数据加速
AliyunLinux2对大规格机型和多任务的优化可以提升高性能计算任务的速度,对存储的流式读写的优化也可以提高模型大文件的读写性能,综合起来大大加速AI和高性能计算任务的效率,例如在实际测试场景中:
- 通过Alluxio利用64个线程加载OSS数据1152个文件144G,在CentOS需要3m25s,AliyunLinux2只需2m19.037s,速度是Centos上的1.6倍。
- 运行ResNet50 Batch 128模型训练,数据缓存到Alluxio中,在CentOS下V100仅仅为5212.00 images/s,在AliyunLinux2下V100可以达到8746.59 images/s, 速度是Centos上的1.7倍。
3.7 其他
- 基于Linux 4.19的内核将阿里巴巴的多年内核和容器化实践融入其中
- 降低Overlayfs的性能损耗,减少容器化对存储性能的损失
- 大量sysctl namespace化,在4.19的内核中大部分sysctl配置都支持在容器中单独设置,比如tcp的超时和重传时间,不同应用有不同的超时和重传的需求,但是在Centos 7的内核中是修改不了的,在AlinyunLinux2中支持对其做Pod级别的配置。
4.如何使用AliyunLinux2作为集群节点系统镜像:
- 在阿里云容器服务ACK中创建集群 https://cs.console.aliyun.com/#/k8s/cluster/createV2/managed?template=managed-default
- 在创建集群的配置过程中,有个操作系统配置,其中选择 "AliyunLinux2"的操作系统并一键创建集群
- 等待集群创建完成后,我们就可以看到集群中的节点为"AliyunLinux2"的操作系统了
PS: 如果是需要对镜像再做一些定制,可以基于AliyunLinux2的镜像再构建自定义镜像使用,容器服务提供了自定义容器服务节点镜像的工具:https://github.com/AliyunContainerService/ack-image-builder
5.总结:
AliyunLinux2的操作系统源自阿里云操作系统团队的精心调校,包含了backport的最新的内核能力,以及阿里巴巴多年的云原生和容器化的经验。容器服务ACK也结合这些特性做了丰富的场景优化,推荐大家使用。此外,容器服务也在结合SOCKMAP和TCP发送接收的零拷贝技术,让ServiceMesh对性能的损失降到最小,提供更好的ServiceMesh能力。
参考:
《Aliyun Linux2产品官网》https://www.alibabacloud.com/zh/products/alinux
《阿里云操作系统及Kernel团队博客》 https://kernel.taobao.org/
《阿里云内核开源官网》https://alibaba.github.io/cloud-kernel/zh/
《体验 AliyunLinux2 不多花一分钱提升15%服务器性能》 https://yq.aliyun.com/articles/701433
《Kubernetes网络的IPVlan方案》https://kernel.taobao.org/2019/11/ipvlan-for-kubernete-net/