2024-11-21 一站式 AI 平台生日大派对!2024-11-21 一站式 AI 平台生日大派对! 无问芯穹特别推出多项超值福利!立即参与
Skip to content

部署模型服务

GenStudio 支持将模型部署为在线服务,并通过 OpenAI 兼容 API 进行调用。

部署前准备

如果需要部署您的自有模型,必须先将模型上传至 GenStudio 模型资产,才能在 GenStudio 部署为在线服务。请提前上传模型资产

NOTE

并非所有模型都支持部署为在线服务。现已支持 Qwen 系列模型及 LoRA。详见上传模型资源列表

使用 GenStudio 模型微调功能完成微调,可在部署时选取已成功的「微调任务」,可直接部署为线上服务。

创建部署任务

访问智算云控制台的模型服务页面,可创建模型服务。

alt text

  1. 选择模型来源。
    • 微调任务:使用 GenStudio 微调任务进行一键部署,平台会从选中的微调任务中获取模型。
    • 我的模型:从用户上传的模型资产中获取模型。
  2. 选择资源来源,当前仅支持公共资源池,即使用公共资源池中的计算资源。

    NOTE

    平台默认分配推理芯片,暂不支持自定义。

  3. 选择资源配置,当前仅支持性能优先模式。
    • 性能优先指使用独占计算资源,在服务期间有更好的性能保障,适合对实际业务有高性能要求的场景。平台按资源规格和使用时长计费。
  4. 填写基本信息,包括部署名称、部署描述。
  5. 部署任务提交后,系统会自动进行部署。在部署过程中,平台会自动生成部署 ID。部署 ID 将用于生成 API 服务的调用地址。
  6. 部署完成后,模型服务进入在线状态。

体验模型服务

模型服务部署成功后,进入在线状态,此时可通过 GenStudio 体验中心直接体验,并提供公网可访问的 API 服务。

alt text

通过体验中心使用服务

找到当前处于在线状态的模型服务,点击右侧详情按钮进入详情页,点击右上角立即体验,即可打开对话页面,对话界面与体验中心的预置模型一致。

alt text

通过 API 使用服务

模型服务提供 OpenAI 兼容的对话 API 端点。如需直接调用 API,或在 OpenAI 兼容的工具集成该 API 服务,请参考下文获取 API 服务地址和密钥。

NOTE

如果在集成 API 服务时遇到问题,请参考 GenStudio API 使用教程。该教程中提供了使用 Curl、OpenAI Python SDK 和 LangChain 的代码示例。

获取 API 服务地址

在模型服务列表中,点击任意条目右侧的详情按钮,切换调用说明标签,可查看该模型服务的调用地址和调用示例。

自部署模型服务的 API 域名规则:

https://cloud.infini-ai.com + /maas/deployment/ + mif-c7kxdnah6nu5lrpw + /chat/completions

其中 mif-c7kxdnah6nu5lrpw 是模型服务的部署 ID,该 ID 一定带有 mif- 前缀。

NOTE

请注意自部署的模型服务 API 域名规则,与平台提供的公共 API 域名规则不同。

获取 API 密钥

请前往 GenStudio 密钥管理页面,创建 API 密钥或复制已有 API 密钥。根据系统提示完成二次验证后,可复制密钥。

常见问题

可以部署自己的模型吗?

如果您本地已有 SFT 微调模型或 LoRA 权重模型,可以在 GenStudio 上传为模型资产,部署为在线服务。请参见上传模型资产