部署完整 SFT 模型服务

本页介绍如何在 GenStudio 中部署一个已完成全量微调（SFT）的模型，或一个包含完整权重的自定义模型，并通过 OpenAI 兼容的 API 进行调用。

提示

如果您通过微调服务完成了 LoRA 参数高效微调，建议直接使用"微调任务"来源一键部署。若您已有一份合并后的完整权重（例如 SFT 全量输出或自训练产物），请遵循本文流程。

Step 0 上传并导入完整模型

在部署前，您需要先将您的模型文件作为一项「基础模型」资产上传并导入到 GenStudio。

适用场景

您拥有一份线下全量微调得到的权重（SFT 输出）。
您在其他平台训练或导出了一个基础模型的自定义版本。
您希望直接部署合并 LoRA 后的完整权重，而不是在运行时加载。

操作摘要

在模型管理中，创建一条我的模型记录，并选择基础模型类型。
使用平台提供的临时凭证，通过 scp、sftp 或图形化工具上传全部模型文件。
上传完成后，返回平台点击已完成上传，开始导入，并等待资产状态变为已导入。

注意

完成标准：

资产列表中，该记录的导入状态为已导入。
资产类型为基础模型。

详细的文件结构要求、支持的模型列表及限制，请参见上传文本模型资产。

Step 1 创建模型服务

模型资产导入成功后，您可以开始创建模型服务。

前往 控制台 > 模型服务，点击创建模型服务。

选择模型来源
- 选择我的模型。
- 在下拉列表中，选择您在 Step 0 中导入的基础模型资产。
注意
如果您在列表中只看到 LoRA 资产，说明您上传的是 LoRA 权重。如需部署完整模型，请先在本地合并权重，然后以基础模型类型重新上传。
选择资源来源
- 当前仅支持公共资源池（独占实例）。
选择资源配置
- 当前仅支持性能优先模式，该模式提供独占算力，按规格和在线时长计费。
填写基本信息
- 填写部署名称和描述。提交后，系统将分配一个部署 ID（格式为 mif-xxxxxxxx）。
监控部署过程
- 服务的状态将依次变更为：创建中 > 启动中 > 在线。
- 如果服务长时间停留在某个阶段，您可以通过查看服务日志来定位问题（例如权重加载失败）。

完成以上步骤后，您的 SFT 模型即以独立服务的方式成功上线。如需监控服务的性能指标（如 QPS、延迟等），请参见监控模型服务

注意

上线标准：

在模型服务列表中，状态显示为在线。
在服务详情页的调用说明标签页中，能看到完整的 API 端点。
服务日志中没有持续的错误信息。

Step 2 通过 API 集成

模型服务提供与 OpenAI 兼容的接口，便于您复用现有的 SDK 和生态工具。

获取调用地址

前往 模型服务 > 目标服务详情 > 调用说明 标签页，您可以找到服务的调用地址。

API 端点结构：/maas/deployment/{部署ID}/chat/completions
部署 ID：以 mif- 为前缀，例如 mif-c7kxdnah6nu5lrpw。

示例：

/maas/deployment/mif-c7kxdnah6nu5lrpw/chat/completions

警告

此 API 端点不同于平台提供的预置 LLM API，请注意区分，不要混用。

获取 API Key

前往 密钥管理 页面创建或复制您的 API 密钥。请妥善保管您的密钥，不要在客户端代码中明文暴露。

密钥管理

Curl 调用示例

您可以通过调用示例中的 curl 命令直接发送 API 请求。示例默认从环境变量加载 API 密钥和 Base URL。请注意提前设置环境变量。

API_KEY：GenStudio API key。请将 CURL 命令中的 $API_KEY 修改为您获取的 API 密钥。
MIF_BASE_URL：GenStudio 自部署模型服务 API URL，请使用自部署模型服务地址。
请求体中的 model 字段必须填写您的部署 ID。

shell

# 请将 $API_KEY 替换为您的 API 密钥，并将 mif-xxxxxxxx 替换为您的部署 ID
curl "${MIF_BASE_URL}/maas/deployment/mif-xxxxxxxx/chat/completions" \
  -H "Authorization: Bearer $API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "mif-xxxxxxxx",
    "messages": [
      {"role": "user", "content": "你好，介绍一下你自己。"}
    ],
    "temperature": 0.7,
    "stream": false
  }'

常见集成问题

问题	原因	解决建议
404 Not Found	URL 错误，可能误用了公共模型 API 的域名。	确认请求路径包含 `/maas/deployment/{部署ID}/`。
401 Unauthorized	API 密钥失效或请求头格式错误。	重新生成 API 密钥，并检查 `Authorization` 请求头是否为 `Bearer YOUR_KEY` 格式。
首个 Token 响应慢	服务冷启动或模型权重较大。	首次调用前可先预热一次；对于生产环境，建议保持实例在线。
输出被截断	客户端超时或达到 `max_tokens` 限制。	检查并调整客户端的超时设置和请求参数中的 `max_tokens` 值。

在体验中心快速验证（可选）

在服务详情页，点击立即体验，您可以使用 Web 对话界面快速验证模型的功能和对话效果。

常见问题

创建服务时，为什么在模型来源中找不到我刚上传的模型？

请确保您在上传文件后，已点击已完成上传，开始导入按钮。只有成功导入的资产才会出现在模型来源列表中。

资产状态长时间显示为待导入或导入中怎么办？

大模型文件的校验和索引过程可能需要较长时间。如果状态超过 24 小时未更新，请联系技术支持。

模型来源中只有 LoRA 选项，无法选择基础模型？

这表示您上传的是 LoRA 权重。如需部署完整模型，请先在本地将 LoRA 权重与基础模型合并，然后以基础模型类型重新上传。

API 调用返回模型不存在的错误？

请检查您在请求体中 model 字段的值是否与您的部署 ID（mif-...）完全一致。

部署完整 SFT 模型服务 ​

Step 0 上传并导入完整模型 ​

适用场景 ​

操作摘要 ​

Step 1 创建模型服务 ​

Step 2 通过 API 集成 ​

获取调用地址 ​

获取 API Key ​

Curl 调用示例 ​

常见集成问题 ​

在体验中心快速验证（可选） ​

常见问题 ​

创建服务时，为什么在模型来源中找不到我刚上传的模型？ ​

资产状态长时间显示为待导入或导入中怎么办？ ​

模型来源中只有 LoRA 选项，无法选择基础模型？ ​

API 调用返回模型不存在的错误？ ​