各个行业面临的挑战及解决方案
vivo AI计算平台的ACK混合云实践
2、业务容器创建失败,报找不到 loopback 插件。
terway 没有像 calico-node 一样在 /opt/cni/bin/ 目录下部署 loopback 插件 ( 创建回环网络接口 )。我们给
terway daemonset 添加了 InitContainer 来部署 loopback 插件,解决了问题。
3、业务容器分配的 IP 是属于主机交换机网段。
这是因为在使用中,我们新增了一个可用区,但是没有把可用区的 Pod 虚拟交互机的信息配置给 terway。通过在
terway 配置的 vswitches 字段新增可用区的 Pod 虚拟交换机信息,可以解决问题。
云主机加入集群
将云主机加入集群的流程和物理机基本一致。首先通过公司云平台申请云主机,然后通过 VContainer 的自动化平
台将云主机初始化并加到集群中。最后给云主机打上云主机专有的标签。关于自动化平台的介绍,可以参见 vivo AI
计算平台云原生自动化实践。
降低专线压力
机房到阿里云的专线是公司所有业务共用的,如果平台占用过多专线带宽,会影响到其他业务的稳定性。在落地时我
们发现深度学习训练任务从机房的存储集群拉取数据,确实对专线造成压力,为此平台采取了以下措施:
1、监控云主机的网络使用情况,由网络组协助监控对专线的影响。
2、使用 tc 工具对云主机 eth0 网卡的下行带宽进行限流。
3、支持业务使用云主机的数据盘,将训练数据进行预加载,避免反复从机房拉取数据。
4、落地效果
数个业务方临时需要大量的算力用于深度学习模型的训练。通过混合云的能力,平台将数十台 GPU 云主机加入到集
群,提供给用户在 VTraining 训练平台上使用,及时满足了业务的算力需求。用户的使用体验和之前完全一致。这
批资源根据不同业务的情况,使用周期在一个月到数个月。经过估算,使用费用大大低于自行采购物理机的费用,有
效降低了成本。
5、未来展望
混合云的建设和落地取得了阶段性的成果,在未来我们会持续完善功能机制和探索新特性:
支持 AI 在线服务通过混合云能力部署到云主机,满足在线业务临时算力需求。
建立一套简单有效的资源申请、释放、续期的流程机制,提升跨团队的沟通协作效率。
针对云主机的成本、利用率进行度量和考核,促使业务方使用好资源。
将云主机申请、加入集群整个流程自动化,减少人工操作,提高效率。
探索云上的高级特性,提升大规模分布式训练的性能。