会给客户单独在pai dsw控制台创建一个modelscope实例呢?

"modelscope平台启动dsw卡住一直提示正在启动,预计一两分钟,其实一直卡住了不动,等半小时一小时,退出重新登录等也不能解决问题这种实例是魔搭平台账号去统一启动的,还是会给客户单独在pai dsw控制台创建一个modelscope实例呢?
c15432ce9adbb415b9a3046be9722f4d.png
"

展开
收起
小小爱吃香菜 2024-03-19 16:31:32 92 分享 版权
阿里云 AI 助理回答

根据您的描述,ModelScope平台启动DSW实例时卡住并提示“正在启动”,长时间无法完成启动的问题,可能涉及多个方面的原因。以下是详细分析和解决方法:


1. DSW实例的创建方式

在阿里云PAI平台中,DSW(交互式建模)实例的创建和管理是通过PAI控制台进行的。无论是通过ModelScope平台启动DSW实例,还是直接在PAI DSW控制台创建实例,最终都会在PAI DSW控制台中生成对应的实例。

  • 统一启动:如果通过ModelScope平台启动DSW实例,实际上是调用了PAI DSW的服务接口,创建了一个与ModelScope关联的DSW实例。
  • 单独创建:如果您直接在PAI DSW控制台创建实例,则会生成一个独立的DSW实例,与ModelScope无直接关联。

因此,您提到的“卡住”问题,可能是由于ModelScope平台调用PAI DSW服务时出现了异常,或者PAI DSW实例本身存在问题。


2. 可能的原因及排查方法

(1)账号权限或实名认证问题

  • 如果您的账号未完成实名认证,或者触发了风控机制,可能导致DSW实例无法正常启动。
  • 解决方案
    • 确保您的阿里云账号已完成实名认证。
    • 如果已实名认证但仍无法启动,请检查是否需要在天池平台完成额外的实名认证。

(2)资源不足或地域限制

  • DSW实例的启动依赖于底层计算资源(如GPU、CPU等)。如果当前地域的资源不足,可能会导致实例启动失败或卡住。
  • 解决方案
    • 尝试切换到其他支持的地域(如华北2、华东2、华南1等)。
    • 在非高峰期(如夜间或工作日之外)尝试启动实例。

(3)镜像或环境配置问题

  • 如果使用的镜像(如pai-training-algorithm/llm_deepspeed_peft:v0.0.3)存在问题,可能导致实例启动失败。
  • 解决方案
    • 检查镜像URL是否正确,并确保REGION参数已替换为正确的地域代号(如cn-hangzhou)。
    • 如果镜像下载失败,可以尝试手动设置代理后重新访问。

(4)实例规格限制

  • 每个阿里云账号在每个地域最多只能创建2*GPU规格的DSW实例。如果选择的规格超出限制,会导致实例创建失败。
  • 解决方案
    • 检查当前账号的实例规格限制。
    • 如果需要提升限额,请提交工单联系技术支持。

(5)底层服务异常

  • 如果PAI DSW服务本身出现异常(如订单创建失败),也可能导致实例卡住。
  • 解决方案
    • 检查DSW实例的事件日志,查看具体的报错信息。
    • 如果报错信息显示“Fail to create order”,请稍后再试或联系技术支持。

3. 具体操作步骤

(1)检查实例状态

  1. 登录PAI控制台。
  2. 在左侧导航栏,选择模型开发与训练 > 交互式建模(DSW)
  3. 找到目标DSW实例,单击实例名称进入详情页面。
  4. 事件页签中查看报错信息,定位问题原因。

(2)切换地域或调整规格

  1. 在PAI DSW控制台,选择其他支持的地域(如华北2、华东2等)。
  2. 调整实例规格为推荐的V100(16GB)或更高显存的GPU。

(3)手动设置代理

如果镜像下载失败,可以在Terminal中执行以下命令设置代理:

export http_proxy=http://your-proxy-server:port
export https_proxy=http://your-proxy-server:port

(4)提交工单

如果以上方法均无法解决问题,请提交工单联系技术支持,提供以下信息: - 实例ID。 - 报错信息截图。 - 当前账号的地域和规格限制。


4. 重要提醒

  • 资源使用策略:参与免费试用活动的DSW实例默认配置了闲置自动关机策略。如果连续3小时GPU和CPU的水位均低于阈值,系统可能会自动停止实例。建议及时关注资源使用情况,避免浪费。
  • 数据备份:在删除或重启DSW实例前,请确保已备份必要数据。

通过以上分析和操作步骤,您可以逐步排查并解决DSW实例卡住的问题。如果问题仍未解决,建议尽快联系阿里云技术支持团队以获得进一步帮助。

有帮助
无帮助
AI 助理回答生成答案可能存在不准确,仅供参考
0 条回答
写回答
取消 提交回答

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352

热门讨论

热门文章

还有其他疑问?
咨询AI助理