GenStudio 于 2025 年 5 月 推出 GenStudio 高级版/企业版升级服务,大幅提升 API 调用频率GenStudio 于 2025 年 5 月 推出 GenStudio 高级版/企业版升级服务,大幅提升 API 调用频率 ,依然保留免费基础服务了解计费
Skip to content

部署完整 SFT 模型服务

本页介绍如何在 GenStudio 中部署一个已完成全量微调(SFT)的模型,或一个包含完整权重的自定义模型,并通过 OpenAI 兼容的 API 进行调用。

提示

如果您通过微调服务完成了 LoRA 参数高效微调,建议直接使用"微调任务"来源一键部署。若您已有一份合并后的完整权重(例如 SFT 全量输出或自训练产物),请遵循本文流程。

Step 0 上传并导入完整模型

在部署前,您需要先将您的模型文件作为一项「基础模型」资产上传并导入到 GenStudio。

适用场景

  • 您拥有一份线下全量微调得到的权重(SFT 输出)。
  • 您在其他平台训练或导出了一个基础模型的自定义版本。
  • 您希望直接部署合并 LoRA 后的完整权重,而不是在运行时加载。

操作摘要

  1. 模型管理中,创建一条我的模型记录,并选择基础模型类型。
  2. 使用平台提供的临时凭证,通过 scp、sftp 或图形化工具上传全部模型文件。
  3. 上传完成后,返回平台点击已完成上传,开始导入,并等待资产状态变为已导入

注意

完成标准

  • 资产列表中,该记录的导入状态已导入
  • 资产类型为基础模型

详细的文件结构要求、支持的模型列表及限制,请参见上传文本模型资产

Step 1 创建模型服务

模型资产导入成功后,您可以开始创建模型服务。

前往 控制台 > 模型服务,点击创建模型服务

  1. 选择模型来源

    • 选择我的模型
    • 在下拉列表中,选择您在 Step 0 中导入的基础模型资产。

    注意

    如果您在列表中只看到 LoRA 资产,说明您上传的是 LoRA 权重。如需部署完整模型,请先在本地合并权重,然后以基础模型类型重新上传。

  2. 选择资源来源

    • 当前仅支持公共资源池(独占实例)。
  3. 选择资源配置

    • 当前仅支持性能优先模式,该模式提供独占算力,按规格和在线时长计费。
  4. 填写基本信息

    • 填写部署名称和描述。提交后,系统将分配一个部署 ID(格式为 mif-xxxxxxxx)。
  5. 监控部署过程

    • 服务的状态将依次变更为:创建中 > 启动中 > 在线
    • 如果服务长时间停留在某个阶段,您可以通过查看服务日志来定位问题(例如权重加载失败)。

完成以上步骤后,您的 SFT 模型即以独立服务的方式成功上线。如需监控服务的性能指标(如 QPS、延迟等),请参见监控模型服务

注意

上线标准

  • 在模型服务列表中,状态显示为在线
  • 在服务详情页的调用说明标签页中,能看到完整的 API 端点。
  • 服务日志中没有持续的错误信息。

Step 2 通过 API 集成

模型服务提供与 OpenAI 兼容的接口,便于您复用现有的 SDK 和生态工具。

获取调用地址

前往 模型服务 > 目标服务详情 > 调用说明 标签页,您可以找到服务的调用地址。

  • API 端点结构/maas/deployment/{部署ID}/chat/completions
  • 部署 ID:以 mif- 为前缀,例如 mif-c7kxdnah6nu5lrpw

示例

/maas/deployment/mif-c7kxdnah6nu5lrpw/chat/completions

警告

此 API 端点不同于平台提供的预置 LLM API,请注意区分,不要混用。

获取 API Key

前往 密钥管理 页面创建或复制您的 API 密钥。请妥善保管您的密钥,不要在客户端代码中明文暴露。

Curl 调用示例

您可以通过调用示例中的 curl 命令直接发送 API 请求。示例默认从环境变量加载 API 密钥和 Base URL。请注意提前设置环境变量。

  • API_KEY:GenStudio API key。请将 CURL 命令中的 $API_KEY 修改为您获取的 API 密钥。
  • MIF_BASE_URL:GenStudio 自部署模型服务 API URL,请使用自部署模型服务地址。
  • 请求体中的 model 字段必须填写您的部署 ID
shell
# 请将 $API_KEY 替换为您的 API 密钥,并将 mif-xxxxxxxx 替换为您的部署 ID
curl "${MIF_BASE_URL}/maas/deployment/mif-xxxxxxxx/chat/completions" \
  -H "Authorization: Bearer $API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "mif-xxxxxxxx",
    "messages": [
      {"role": "user", "content": "你好,介绍一下你自己。"}
    ],
    "temperature": 0.7,
    "stream": false
  }'

常见集成问题

问题原因解决建议
404 Not FoundURL 错误,可能误用了公共模型 API 的域名。确认请求路径包含 /maas/deployment/{部署ID}/
401 UnauthorizedAPI 密钥失效或请求头格式错误。重新生成 API 密钥,并检查 Authorization 请求头是否为 Bearer YOUR_KEY 格式。
首个 Token 响应慢服务冷启动或模型权重较大。首次调用前可先预热一次;对于生产环境,建议保持实例在线。
输出被截断客户端超时或达到 max_tokens 限制。检查并调整客户端的超时设置和请求参数中的 max_tokens 值。

在体验中心快速验证(可选)

在服务详情页,点击立即体验,您可以使用 Web 对话界面快速验证模型的功能和对话效果。

常见问题

创建服务时,为什么在模型来源中找不到我刚上传的模型?

请确保您在上传文件后,已点击已完成上传,开始导入按钮。只有成功导入的资产才会出现在模型来源列表中。

资产状态长时间显示为待导入导入中怎么办?

大模型文件的校验和索引过程可能需要较长时间。如果状态超过 24 小时未更新,请联系技术支持。

模型来源中只有 LoRA 选项,无法选择基础模型

这表示您上传的是 LoRA 权重。如需部署完整模型,请先在本地将 LoRA 权重与基础模型合并,然后以基础模型类型重新上传。

API 调用返回模型不存在的错误?

请检查您在请求体中 model 字段的值是否与您的部署 IDmif-...)完全一致。