2024-11-21 一站式 AI 平台生日大派对!2024-11-21 一站式 AI 平台生日大派对! 无问芯穹特别推出多项超值福利!立即参与
Skip to content

部署模型服务

GenStudio 支持将模型部署为在线服务,并通过 OpenAI 兼容 API 进行调用。

部署前准备

  • 上传模型资产:如果需要部署您的自有模型,必须先将模型上传至 GenStudio 模型资产,才能在 GenStudio 部署为在线服务。

    NOTE

    并非所有模型都支持部署为在线服务。现已支持 Qwen 系列模型及 LoRA。详见上传模型资源列表

  • 完成模型微调:如果要使用 GenStudio 功能的微调任务直接部署,可在部署时选取已成功的「微调任务」,部署为线上服务。

创建部署任务

访问智算云控制台的模型服务页面,可创建模型服务。

alt text

  1. 选择模型来源。

    • 微调任务:使用 GenStudio 微调任务进行一键部署,平台会从选中的微调任务中获取模型。

    • 我的模型:从用户上传的模型资产中获取模型。以多 LoRA 部署场景为例,可批量部署已导入的 LoRA 模型资产。

      alt text

  2. 选择资源来源,当前仅支持公共资源池,即使用公共资源池中的计算资源。

    NOTE

    平台默认分配推理芯片,暂不支持自定义。

  3. 选择资源配置,当前仅支持性能优先模式。

    • 性能优先指使用独占计算资源,在服务期间有更好的性能保障,适合对实际业务有高性能要求的场景。平台按资源规格和使用时长计费。
  4. 填写基本信息,包括部署名称、部署描述。

    NOTE

    批量部署 LoRA 模型时,Genstudio 将生成多个模型服务,并按照预置规格自动命名。

  5. 部署任务提交后,系统会自动进行部署。在部署过程中,平台会自动生成部署 ID。部署 ID 将用于生成 API 服务的调用地址。

  6. 部署完成后,模型服务进入在线状态。

体验模型服务

模型服务部署成功后,进入在线状态,此时可通过 GenStudio 体验中心直接体验,并提供公网可访问的 API 服务。

alt text

通过体验中心使用服务

找到当前处于在线状态的模型服务,点击右侧详情按钮进入详情页,点击右上角立即体验,即可打开对话页面,对话界面与体验中心的预置模型一致。

alt text

通过 API 使用服务

模型服务提供 OpenAI 兼容的对话 API 端点。如需直接调用 API,或在 OpenAI 兼容的工具集成该 API 服务,请参考下文获取 API 服务地址和密钥。

NOTE

如果在集成 API 服务时遇到问题,请参考 GenStudio API 使用教程。该教程中提供了使用 Curl、OpenAI Python SDK 和 LangChain 的代码示例。

获取 API 服务地址

在模型服务列表中,点击任意条目右侧的详情按钮,切换调用说明标签,可查看该模型服务的调用地址和调用示例。

自部署模型服务的 API 域名规则:

https://cloud.infini-ai.com + /maas/deployment/ + mif-c7kxdnah6nu5lrpw + /chat/completions

其中 mif-c7kxdnah6nu5lrpw 是模型服务的部署 ID,该 ID 一定带有 mif- 前缀。

NOTE

请注意自部署的模型服务 API 域名规则,与平台提供的公共 API 域名规则不同。

获取 API 密钥

请前往 GenStudio 密钥管理页面,创建 API 密钥或复制已有 API 密钥。根据系统提示完成二次验证后,可复制密钥。

常见问题

可以部署自己的模型吗?

如果您本地已有 SFT 微调模型或 LoRA 权重模型,可以在 GenStudio 上传为模型资产,部署为在线服务。请参见上传模型资产

为什么无法部署模型?

请检查租户是否已完成企业认证。

如果您当前使用账号并非超级管理员,您可能会遇到权限不足的提示。部署模型服务要求当前用户账号至少有大模型平台开发者权限,或已用户已关联的自定义策略允许该功能。如遇到权限不足问题,请联系租户的超级管理员。详见用户账号与权限策略