6.1.4 落地效果
数个业务方临时需要大量的算力用于深度学习模型的训练。通过混合云的能力,平台将数十台 GPU 云主机加入到集群,提供给用户在 VTraining 训练平台上使用,及时满足了业务的算力需 求。用户的使用体验和之前完全一致。这批资源根据不同业务的情况,使用周期在一个月到数 个月。经过估算,使用费用大大低于自行采购物理机的费用,有效降低了成本。
6.1.4.1 未来展望
混合云的建设和落地取得了阶段性的成果,在未来我们会持续完善功能机制和探索新特性:
�支持AI在线服务通过混合云能力部署到云主机,满足在线业务临时算力需求。
•建立一套简单有效的资源申请、释放、续期的流程机制,提升跨团队的沟通协作效率。
•针对云主机的成本、利用率进行度量和考核,促使业务方使用好资源。
•将云主机申请、加入集群整个流程自动化,减少人工操作,提高效率。
•探索云上的高级特性,提升大规模分布式训练的性能。