部署完整 SFT 模型服务
本页介绍如何在 GenStudio 中部署一个已完成全量微调(SFT)的模型,或一个包含完整权重的自定义模型,并通过 OpenAI 兼容的 API 进行调用。
提示
如果您通过微调服务完成了 LoRA 参数高效微调,建议直接使用"微调任务"来源一键部署。若您已有一份合并后的完整权重(例如 SFT 全量输出或自训练产物),请遵循本文流程。
Step 0 上传并导入完整模型
在部署前,您需要先将您的模型文件作为一项「基础模型」资产上传并导入到 GenStudio。
适用场景
- 您拥有一份线下全量微调得到的权重(SFT 输出)。
- 您在其他平台训练或导出了一个基础模型的自定义版本。
- 您希望直接部署合并 LoRA 后的完整权重,而不是在运行时加载。
操作摘要
- 在模型管理中,创建一条我的模型记录,并选择基础模型类型。
- 使用平台提供的临时凭证,通过 scp、sftp 或图形化工具上传全部模型文件。
- 上传完成后,返回平台点击已完成上传,开始导入,并等待资产状态变为已导入。
Step 1 创建模型服务
模型资产导入成功后,您可以开始创建模型服务。
前往 控制台 > 模型服务,点击创建模型服务。
选择模型来源
- 选择我的模型。
- 在下拉列表中,选择您在 Step 0 中导入的基础模型资产。
注意
如果您在列表中只看到 LoRA 资产,说明您上传的是 LoRA 权重。如需部署完整模型,请先在本地合并权重,然后以基础模型类型重新上传。
选择资源来源
- 当前仅支持公共资源池(独占实例)。
选择资源配置
- 当前仅支持性能优先模式,该模式提供独占算力,按规格和在线时长计费。
填写基本信息
- 填写部署名称和描述。提交后,系统将分配一个部署 ID(格式为
mif-xxxxxxxx
)。
- 填写部署名称和描述。提交后,系统将分配一个部署 ID(格式为
监控部署过程
- 服务的状态将依次变更为:创建中 > 启动中 > 在线。
- 如果服务长时间停留在某个阶段,您可以通过查看服务日志来定位问题(例如权重加载失败)。
完成以上步骤后,您的 SFT 模型即以独立服务的方式成功上线。如需监控服务的性能指标(如 QPS、延迟等),请参见监控模型服务
注意
上线标准:
- 在模型服务列表中,状态显示为在线。
- 在服务详情页的调用说明标签页中,能看到完整的 API 端点。
- 服务日志中没有持续的错误信息。
Step 2 通过 API 集成
模型服务提供与 OpenAI 兼容的接口,便于您复用现有的 SDK 和生态工具。
获取调用地址
前往 模型服务 > 目标服务详情 > 调用说明 标签页,您可以找到服务的调用地址。
- API 端点结构:
/maas/deployment/{部署ID}/chat/completions
- 部署 ID:以
mif-
为前缀,例如mif-c7kxdnah6nu5lrpw
。
示例:
/maas/deployment/mif-c7kxdnah6nu5lrpw/chat/completions
警告
此 API 端点不同于平台提供的预置 LLM API,请注意区分,不要混用。
获取 API Key
前往 密钥管理 页面创建或复制您的 API 密钥。请妥善保管您的密钥,不要在客户端代码中明文暴露。
Curl 调用示例
您可以通过调用示例中的 curl 命令直接发送 API 请求。示例默认从环境变量加载 API 密钥和 Base URL。请注意提前设置环境变量。
API_KEY
:GenStudio API key。请将 CURL 命令中的$API_KEY
修改为您获取的 API 密钥。MIF_BASE_URL
:GenStudio 自部署模型服务 API URL,请使用自部署模型服务地址。- 请求体中的
model
字段必须填写您的部署 ID。
# 请将 $API_KEY 替换为您的 API 密钥,并将 mif-xxxxxxxx 替换为您的部署 ID
curl "${MIF_BASE_URL}/maas/deployment/mif-xxxxxxxx/chat/completions" \
-H "Authorization: Bearer $API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "mif-xxxxxxxx",
"messages": [
{"role": "user", "content": "你好,介绍一下你自己。"}
],
"temperature": 0.7,
"stream": false
}'
常见集成问题
问题 | 原因 | 解决建议 |
---|---|---|
404 Not Found | URL 错误,可能误用了公共模型 API 的域名。 | 确认请求路径包含 /maas/deployment/{部署ID}/ 。 |
401 Unauthorized | API 密钥失效或请求头格式错误。 | 重新生成 API 密钥,并检查 Authorization 请求头是否为 Bearer YOUR_KEY 格式。 |
首个 Token 响应慢 | 服务冷启动或模型权重较大。 | 首次调用前可先预热一次;对于生产环境,建议保持实例在线。 |
输出被截断 | 客户端超时或达到 max_tokens 限制。 | 检查并调整客户端的超时设置和请求参数中的 max_tokens 值。 |
在体验中心快速验证(可选)
在服务详情页,点击立即体验,您可以使用 Web 对话界面快速验证模型的功能和对话效果。
常见问题
创建服务时,为什么在模型来源中找不到我刚上传的模型?
请确保您在上传文件后,已点击已完成上传,开始导入按钮。只有成功导入的资产才会出现在模型来源列表中。
资产状态长时间显示为待导入或导入中怎么办?
大模型文件的校验和索引过程可能需要较长时间。如果状态超过 24 小时未更新,请联系技术支持。
模型来源中只有 LoRA 选项,无法选择基础模型?
这表示您上传的是 LoRA 权重。如需部署完整模型,请先在本地将 LoRA 权重与基础模型合并,然后以基础模型类型重新上传。
API 调用返回模型不存在的错误?
请检查您在请求体中 model
字段的值是否与您的部署 ID(mif-...
)完全一致。