资源部署与调用相关技术咨询

已解决

就是我想了解一下model scope的技术支撑点:

model scope提供很多模型在线体验的功能,这些在线体验的模型肯定要提前部署好才能供用户直接调用,大概2w多个模型服务支持直接调用体验,这么多的模型应该非常消耗服务器和GPU资源,我想了解一下model scope关于模型部署和资源利用这里用到了哪些技术,从而能够同时提供这么多免费的模型给大家在线体验的。如果是普通企业肯定是做不到的,光是部署这么多模型用到的服务器和GPU就难以想象,还要考虑维护等等。

网上一直查找相关资料也找不到,请问有相关的文章吗?

展开
收起
游客46lpqmadeumoq 2025-09-12 09:34:55 33 分享 版权
1 条回答
写回答
取消 提交回答
  • 北京阿里云ACE会长
    采纳回答

    ModelScope不会为每个模型长期占用一个GPU或一台服务器。

    容器化封装:每一个模型都被封装成一个独立的、标准化的Docker容器。这个容器内包含了模型文件、依赖的环境(Python, PyTorch, TensorFlow等)、以及一套统一的API接口(例如基于HTTP的RESTful API)。这保证了模型环境的一致性,也实现了模型与模型之间的隔离。

    按需加载:当用户点击“在线体验”时,调度系统并不会立即启动一个模型容器。而是先检查资源池中是否有该模型正在运行中的实例。

    如果有(模型是“热”的):直接将用户的请求路由到该运行中的实例,用户几乎无感知地获得结果。

    如果没有(模型是“冷”的):调度系统会从模型仓库中拉取对应的容器镜像,然后在资源池中找一个有空闲资源的服务器(CPU/GPU),启动这个模型的容器。这个过程需要一定时间(十几秒到一分钟,这就是为什么有时体验需要“等待加载”)。

    2025-09-12 11:40:48
    赞同 2 展开评论

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352

热门讨论

热门文章

还有其他疑问?
咨询AI助理