云原生 AI 套件的阿里 ecs 里面可以挂载 erdma 网卡,如果在 ecs 里面部署 ack,那 ecs 里面的起的容器可以用上 rdma 网络吗?我看 ecs 里面最多只能挂载2块 erdma 网卡,那如果我在 ecs 里面起很多容器,这么多容器如何共享这两块 erdma 网卡呢?
如果云原生AI套件在ECS里面部署ACK,那么ECS里面的起的容器理论上可以使用上RDMA网络。而在ECS里面起的多个容器共享两块eRDMA网卡,可以通过配置Docker来确保网络资源的有效分配和使用。
云原生AI套件是阿里云容器服务ACK的一部分,它提供了一套针对AI/ML应用和系统的全栈优化解决方案。此方案支持在Kubernetes容器平台上快速构建AI生产系统,并且能够管理云上的异构算力。这就意味着,如果您在ECS实例中部署了ACK并使用了云原生AI套件,您的容器可以利用该实例中的异构资源,包括eRDMA网卡。
对于如何在多个容器之间共享两块eRDMA网卡的问题,关键在于网络配置。您需要确保eRDMA设备在容器中被正确暴露,并且通过网络配置正确分配给各个容器使用。例如,您可以创建虚拟网卡并将其绑定到特定的网络,然后在创建容器时添加这些虚拟网卡,从而允许容器通过这些网络进行通信。此外,使用OpenAPI方式创建并挂载eRDMA网卡到GPU实例时,每个实例最多支持两张eRDMA网卡,且需要分过NetworkCardIndex参数绑定到不同的通道上,以实的最大化利用。
综上,通过这样的配置和管理,即便ECS中只挂载了两块eRDMA网卡,您仍然可以在多个容器之间实现它们的共享使用,同时享受到RDMA带来的超低延迟和优越的网络性能。
在ACK中目前是hca的模式使用erdma网卡,容器共享使用宿主机上的网卡。rdma-device-plugin会做这个事。此回答整理自钉群“云原生AI套件客户交流群”
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
阿里云拥有国内全面的云原生产品技术以及大规模的云原生应用实践,通过全面容器化、核心技术互联网化、应用 Serverless 化三大范式,助力制造业企业高效上云,实现系统稳定、应用敏捷智能。拥抱云原生,让创新无处不在。