带你读《云原生架构白皮书2022新版》——vivo AI计算平台的ACK混合云实践

2023-05-27 554

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 带你读《云原生架构白皮书2022新版》——vivo AI计算平台的ACK混合云实践

各个行业面临的挑战及解决方案

vivo AI计算平台的ACK混合云实践

2、业务容器创建失败，报找不到 loopback 插件。

terway 没有像 calico-node 一样在 /opt/cni/bin/ 目录下部署 loopback 插件 ( 创建回环网络接口 )。我们给

terway daemonset 添加了 InitContainer 来部署 loopback 插件，解决了问题。

3、业务容器分配的 IP 是属于主机交换机网段。

这是因为在使用中，我们新增了一个可用区，但是没有把可用区的 Pod 虚拟交互机的信息配置给 terway。通过在

terway 配置的 vswitches 字段新增可用区的 Pod 虚拟交换机信息，可以解决问题。

云主机加入集群

将云主机加入集群的流程和物理机基本一致。首先通过公司云平台申请云主机，然后通过 VContainer 的自动化平

台将云主机初始化并加到集群中。最后给云主机打上云主机专有的标签。关于自动化平台的介绍，可以参见 vivo AI

计算平台云原生自动化实践。

降低专线压力

机房到阿里云的专线是公司所有业务共用的，如果平台占用过多专线带宽，会影响到其他业务的稳定性。在落地时我

们发现深度学习训练任务从机房的存储集群拉取数据，确实对专线造成压力，为此平台采取了以下措施：

1、监控云主机的网络使用情况，由网络组协助监控对专线的影响。

2、使用 tc 工具对云主机 eth0 网卡的下行带宽进行限流。

3、支持业务使用云主机的数据盘，将训练数据进行预加载，避免反复从机房拉取数据。

4、落地效果

数个业务方临时需要大量的算力用于深度学习模型的训练。通过混合云的能力，平台将数十台 GPU 云主机加入到集

群，提供给用户在 VTraining 训练平台上使用，及时满足了业务的算力需求。用户的使用体验和之前完全一致。这

批资源根据不同业务的情况，使用周期在一个月到数个月。经过估算，使用费用大大低于自行采购物理机的费用，有

效降低了成本。

5、未来展望

混合云的建设和落地取得了阶段性的成果，在未来我们会持续完善功能机制和探索新特性：

支持 AI 在线服务通过混合云能力部署到云主机，满足在线业务临时算力需求。

建立一套简单有效的资源申请、释放、续期的流程机制，提升跨团队的沟通协作效率。

针对云主机的成本、利用率进行度量和考核，促使业务方使用好资源。

将云主机申请、加入集群整个流程自动化，减少人工操作，提高效率。

探索云上的高级特性，提升大规模分布式训练的性能。

相关实践学习

深入解析Docker容器化技术

Docker是一个开源的应用容器引擎，让开发者可以打包他们的应用以及依赖包到一个可移植的容器中，然后发布到任何流行的Linux机器上，也可以实现虚拟化，容器是完全使用沙箱机制，相互之间不会有任何接口。Docker是世界领先的软件容器平台。开发人员利用Docker可以消除协作编码时“在我的机器上可正常工作”的问题。运维人员利用Docker可以在隔离容器中并行运行和管理应用，获得更好的计算密度。企业利用Docker可以构建敏捷的软件交付管道，以更快的速度、更高的安全性和可靠的信誉为Linux和Windows Server应用发布新功能。在本套课程中，我们将全面的讲解Docker技术栈，从环境安装到容器、镜像操作以及生产环境如何部署开发的微服务应用。本课程由黑马程序员提供。     相关的阿里云产品：容器服务 ACK 容器服务 Kubernetes 版（简称 ACK）提供高性能可伸缩的容器应用管理能力，支持企业级容器化应用的全生命周期管理。整合阿里云虚拟化、存储、网络和安全能力，打造云端最佳容器化应用运行环境。了解产品详情: https://www.aliyun.com/product/kubernetes