操作流程
- 登录HPC容器管理界面,如果页面提示您还未开通容器服务,请单击开通。
单击左侧导航的[backcolor=transparent]集群页,选中右上角的[backcolor=transparent]创建集群旁边的小三角,单击[backcolor=transparent]创建本地集群,跳转到下面的页面:
设置集群的名称和网络类型,单击[backcolor=transparent]创建集群
[backcolor=transparent]集群名称可以设置一个名称用于标示集群。名称要求在同一个用户和同一个region下唯一。目前使用的region是[backcolor=transparent]cn-beijing-hpc。
[backcolor=transparent]地域选项请一定选择HPC地域。如果您的界面上没有HPC地域,请提工单将您的阿里云账号告诉我们,为您开通相关权限。
[backcolor=transparent]网络类型请一定选择[backcolor=transparent]Overlay网络。[backcolor=transparent]并且请一定注意不要使用192.168.0.0/16,建议使用172.80.0.0/16。
[backcolor=transparent]是否新增节点默认不创建节点。
添加节点
4.1 回到[backcolor=transparent]集群页面,在已经创建的集群右侧单击[backcolor=transparent]更多下拉框,选择[backcolor=transparent]添加已有实例
4.2 查看需要在HPC机器上执行的脚本,特别注意其中的长串
4.3 登录到HPC机器
(1) 清理已有的nvidia docker和docker。[backcolor=transparent]如果这是您新购买的北京HPC,请略过此步。如果这不是您第一次注册HPC容器集群,未避免兼容问题请在机器上运行以下脚本:
- [backcolor=transparent]docker volume rm $[backcolor=transparent]([backcolor=transparent]docker volume ls [backcolor=transparent]-[backcolor=transparent]q[backcolor=transparent])
- [backcolor=transparent]docker rm [backcolor=transparent]-[backcolor=transparent]f $[backcolor=transparent]([backcolor=transparent]sudo docker ps [backcolor=transparent]-[backcolor=transparent]aq[backcolor=transparent])
- [backcolor=transparent]service nvidia[backcolor=transparent]-[backcolor=transparent]docker stop
- [backcolor=transparent]service docker stop
- [backcolor=transparent]rpm [backcolor=transparent]-[backcolor=transparent]qa[backcolor=transparent]|[backcolor=transparent]grep nvidia[backcolor=transparent]-[backcolor=transparent]docker[backcolor=transparent]|[backcolor=transparent]xargs yum remove [backcolor=transparent]-[backcolor=transparent]y
- [backcolor=transparent]rpm [backcolor=transparent]-[backcolor=transparent]qa[backcolor=transparent]|[backcolor=transparent]grep docker[backcolor=transparent]|[backcolor=transparent]xargs yum remove [backcolor=transparent]-[backcolor=transparent]y
- [backcolor=transparent]rm [backcolor=transparent]-[backcolor=transparent]rf [backcolor=transparent]/[backcolor=transparent]etc[backcolor=transparent]/[backcolor=transparent]docker
- [backcolor=transparent]rm [backcolor=transparent]-[backcolor=transparent]rf [backcolor=transparent]/[backcolor=transparent]disk2[backcolor=transparent]/[backcolor=transparent]docker
- [backcolor=transparent]ifconfig docker0 down
- [backcolor=transparent]brctl delbr docker0
- [backcolor=transparent]ifconfig docker_gwbridge down
- [backcolor=transparent]brctl delbr docker_gwbridge
(2) 在HPC机器中下载并运行注册脚本。注意c46e89653c69d0fcedc156d19b6e2156f5668001 是步骤[backcolor=transparent]3.2中的长串,请根据您在[backcolor=transparent]3.2步中的实际情况设置。 --advertise-interface 是与外界通信的网络接口,北京HPC一律是bond0.700
- [backcolor=transparent]curl [backcolor=transparent]-[backcolor=transparent]Ls[backcolor=transparent] http[backcolor=transparent]:[backcolor=transparent]//aliyuncontainerservice.oss-cn-hangzhou-internal.aliyuncs.com/hpc/1.12.3/attachNodeScript | sudo -H bash -s c46e89653c69d0fcedc156d19b6e2156f5668001 --advertise-interface bond0.700 --override-kernel-check
5. 访问
https://cs.console.aliyun.com/#/node查看节点列表
6. 现在您的机器上已经成功安装并运行了docker和nvidia-docker服务,可以开始利用容器服务部署应用了。