部署模型服务
GenStudio 支持将模型部署为在线服务,并通过 OpenAI 兼容 API 进行调用。
部署前准备
如果需要部署您的自有模型,必须先将模型上传至 GenStudio 模型资产,才能在 GenStudio 部署为在线服务。请提前上传模型资产。
NOTE
并非所有模型都支持部署为在线服务。现已支持 Qwen 系列模型及 LoRA。详见上传模型资源列表。
使用 GenStudio 模型微调功能完成微调,可在部署时选取已成功的「微调任务」,可直接部署为线上服务。
创建部署任务
访问智算云控制台的模型服务页面,可创建模型服务。
- 选择模型来源。
- 微调任务:使用 GenStudio 微调任务进行一键部署,平台会从选中的微调任务中获取模型。
- 我的模型:从用户上传的模型资产中获取模型。
- 选择资源来源,当前仅支持公共资源池,即使用公共资源池中的计算资源。
NOTE
平台默认分配推理芯片,暂不支持自定义。
- 选择资源配置,当前仅支持性能优先模式。
- 性能优先指使用独占计算资源,在服务期间有更好的性能保障,适合对实际业务有高性能要求的场景。平台按资源规格和使用时长计费。
- 填写基本信息,包括部署名称、部署描述。
- 部署任务提交后,系统会自动进行部署。在部署过程中,平台会自动生成部署 ID。部署 ID 将用于生成 API 服务的调用地址。
- 部署完成后,模型服务进入在线状态。
体验模型服务
模型服务部署成功后,进入在线状态,此时可通过 GenStudio 体验中心直接体验,并提供公网可访问的 API 服务。
通过体验中心使用服务
找到当前处于在线状态的模型服务,点击右侧详情按钮进入详情页,点击右上角立即体验,即可打开对话页面,对话界面与体验中心的预置模型一致。
通过 API 使用服务
模型服务提供 OpenAI 兼容的对话 API 端点。如需直接调用 API,或在 OpenAI 兼容的工具集成该 API 服务,请参考下文获取 API 服务地址和密钥。
NOTE
如果在集成 API 服务时遇到问题,请参考 GenStudio API 使用教程。该教程中提供了使用 Curl、OpenAI Python SDK 和 LangChain 的代码示例。
获取 API 服务地址
在模型服务列表中,点击任意条目右侧的详情按钮,切换调用说明标签,可查看该模型服务的调用地址和调用示例。
自部署模型服务的 API 域名规则:
https://cloud.infini-ai.com
+ /maas/deployment/
+ mif-c7kxdnah6nu5lrpw
+ /chat/completions
其中 mif-c7kxdnah6nu5lrpw
是模型服务的部署 ID,该 ID 一定带有 mif-
前缀。
NOTE
请注意自部署的模型服务 API 域名规则,与平台提供的公共 API 域名规则不同。
获取 API 密钥
请前往 GenStudio 密钥管理页面,创建 API 密钥或复制已有 API 密钥。根据系统提示完成二次验证后,可复制密钥。
常见问题
可以部署自己的模型吗?
如果您本地已有 SFT 微调模型或 LoRA 权重模型,可以在 GenStudio 上传为模型资产,部署为在线服务。请参见上传模型资产。