介绍

魔搭社区近期上线了一键部署服务（SwingDeploy），使得算法工程师可以将魔搭开源模型一键部署至阿里云函数计算，5分钟完成从开源模型至模型推理API服务的生产转换。得益于阿里云函数计算的产品能力，魔搭SwingDeploy后的模型推理API服务默认具备：极致弹性伸缩（缩零能力）、GPU虚拟化（最小1GB显存粒度）、异步调用能力、按用付费等能力，这些能力帮助算法工程师大大加快了魔搭开源模型投入生产的生命周期。

阿里云函数计算FC是什么？

阿里云函数计算FC是一种基于事件驱动的全托管计算服务，具有如下特点：

1.快速启动和自动扩缩容：用户只需要上传代码，就可以快速启动函数计算服务，无需关心底层基础设施和运维问题。而且函数计算可以自动根据流量情况进行扩缩容，保证服务的高可用性和性能。

2.多语言支持与丰富的开发者工具：函数计算支持多种编程语言，包括 Node.js、Python、Java、Go、.Net等，同时也提供了各种方便的开发者工具，例如阿里云函数计算控制台、命令行工具、API 接口等，可以帮助开发者快速管理和部署函数。

3.事件驱动的编程模型：函数计算采用事件驱动的编程模型，用户只需要编写处理事件的代码，就可以实现各种场景下的自动化服务，例如 Web 应用、API、微服务、数据处理、实时流处理、物联网等。

4.低成本的按量付费模式：函数计算采用按量付费的计费模式，用户只需要按照实际的使用情况进行付费，避免了传统云计算服务需要事先预估使用量和付费的问题，大大降低了开发成本。

本文将以小明的视角（纯纯的小白）体验魔搭社区的一键部署服务（SwingDeploy），对小明的种种疑惑进行解答。

0. 小明如何在魔搭社区一键部署开源模型？

魔搭开源社区当前只有热门开源模型支持一键部署（可支持部署的模型列表紧密扩充中），小明可以在模型库列表页面，过滤支持快速部署的SwingDeploy的模型列表，然后点击进模型详情页，其中模型详情页的右上角包含有部署按钮，可以进行快速部署（SwingDeploy）。

模型列表页：过滤支持模型部署的模型列表

截屏2023-08-15 下午4.24.04.png

模型详情页：右上快速部署

另外，小明可以切换至首页，通过左侧【模型服务】进入模型部署服务（SwingDeploy）页面。

在新建快速部署（SwingDeploy）后，小明可以针对模型部署信息进行配置，包括必要的部署模型版本、部署地域、部署卡型、部署显存等。

当小明点击确认快速配置无误后，通过点击【一键部署】按钮，从而进入部署过程；整个过程一般持续1-5分钟，当部署完成后，可以看到服务状态切换为【部署成功】。

1. 小明在魔搭一键部署模型到阿里云函数计算FC后，实际在FC部署了什么？

当小明将魔搭开源模型一键部署（SwingDeploy）到阿里云函数计算FC后，实际上是在阿里云函数计算FC平台创建了对应的服务与函数；服务和函数是阿里云函数计算资源模型中的一级概念：

服务：

一个服务中可以包含多个函数。
在服务级别上可以配置日志采集、网络通道、存储扩展等，服务中的所有函数继承服务中的这些配置。

函数：

函数是调度与运行的基本单位，是平台用户业务逻辑的所在，其中指明了代码/容器镜像，配置了CPU/内存/显存/GPU的运行规格等。

函数计算平台在收到该函数的推理请求调用后，会根据服务和函数的配置来创建对应的CPU/GPU容器实例。函数实例处理完请求后，再由平台将响应返回给用户。对应的CPU/GPU容器实例空闲一段时间没有处理调用请求后，函数计算平台会将其释放。所以默认情况下，空闲未使用的服务/函数没有资源消耗，函数计算仅对请求处理部分计费。

使用魔搭的“模型服务”SwingDeploy一键部署模型到函数计算后，可以在部署列表中看到“服务名称”，使用服务名称可以到函数计算控制台相应地域的服务列表找到部署好的服务和函数

截屏2023-08-15 下午4.44.37.png

在函数计算控制台的服务与函数页面，搜索指定的服务

用户通过魔搭一键部署模型后，在函数计算会对应生成一个服务与其下的两个函数：

model_download_func作用：用于部署阶段将魔搭模型下载至用户NAS内。
model_app_func作用：基于Flask + 魔搭模型的推理API，具体源码可见链接。

2. 小明如何调用部署在FC的模型？

函数调用是事件驱动的，小明们可以定义一组规则，事件源产生的事件若匹配这些规则，就会触发函数的调用执行。这些规则的定义在函数计算中由“触发器”承载。具体到魔搭一键部署（SwingDeploy）的模型函数，我们默认为其配置了一个HTTP触发器，若有相应的HTTP推理请求发生，即会触发函数的调用执行；另外，后期小明也可以为模型函数配置OSS触发器，当OSS相应事件发生时（上传文件、删除文件），触发模型函数的调用执行。详见函数计算平台HTTP触发器的使用文档。

小明可以通过魔搭平台提供的示例代码调用已部署好的模型。

魔搭示例代码中API_URL中的HTTP URL，就是函数计算为每个魔搭模型函数配置的HTTP触发器。可以通过FC控制台，找到对应的魔搭服务下的model_app_func函数，通过查看函数详情页的“触发器管理”选项卡，查看更为详细的触发器信息。

3. 小明发现部署在FC的模型首次调用耗时长，后续调用耗时短，如何调优。

如上所说，函数如果长时间空闲（没有推理调用发生），FC平台会通过回收函数容器实例来释放资源。函数计算平台在收到一个调用请求后，会判断当前是否有空闲的函数容器实例可供使用，如果没有，则需要新创建一个函数容器实例来服务该请求，这个过程称之为冷启动。

如果函数应用本身初始化时间耗时较长（比如应用三方依赖加载、大模型初始化），那么该函数容器实例上发生的初次推理请求的端到端时延也会增加，例如，初始化较大的模型文件（ChatGLM-6B模型文件15GB、QWen Chat 14GB）。为了应对LLM大模型场景，函数容器实例按照弹性规则，可以分为按量和预留两种模式。上述根据请求量弹出的实例我们称为按量实例。与之对应的，可以为函数配置弹性规则，增加预留模式的容器实例。预留实例由函数计算平台预先创建，属于常驻资源，可用于平缓突发请求产生的时延毛刺。

FC按量模式与预留模式的差异：