Skip to content

部署与调用推理服务

本章节将介绍如何部署和调用模型推理服务。

部署前准备

在部署模型推理服务之前,请确保满足以下条件:

  • 模型:使用开发机上传模型,或使用平台训练任务生成的模型。

  • 资源:请检查当前资源池,确保存在可支持待部署模型的资源规格。

    TIP

    暂不支持展示和查询资源池余量。

  • 镜像:该推理服务依赖的镜像,您可以使用镜像中心的预置镜像;或提前创建自定义镜像,上传至镜像中心。

创建推理服务

访问智算云控制台的推理服务页面,可创建推理服务。

进入创建页面后,请根据页面提示,完成以下配置。

  • 规格信息

    • 资源池:您购买的资源池,其中可能包含一种或多种实例规格。
    • 实例规格: 选择运行服务的计算资源规格。每种规格对应一个特定的 CPU、显卡、内存配置组合。
    • 实例数量: 预期运行的实例数。实例数大于 1 时自动提供负载均衡。仅在当前资源池可用实例大于等于 1 时,该推理服务可部署成功。
    • 滚动更新: 设置最大不可用百分比,该参数仅影响服务升级与回滚。在开发测试阶段,单实例的情况下可设置为 0,多实例的情况下可设置为 50%。详细说明请移步升级服务
  • 基础配置

    • 镜像: 选择推理服务的预置镜像,或选择租户上传的自定义镜像。

      TIP

      AIStudio 推理服务预置了包含 FastChat 与 vLLM 的容器镜像,可简化大型语言模型的部署过程。目前已提供的专用镜像名称:

      cr.infini-ai.com/infini-ai/inference-base:v1-vllm0.4.0-torch2.1-cuda12.3-ubuntu22.04

    • 启动命令: 镜像的启动命令。请根据当前镜像,写入必要命令和环境配置。

      TIP

      请特别注意容器的生命周期管理,在启动命令中需要有一个前台运行的主进程。如果全部使用 nohup 命令启动服务,当容器的启动命令执行完毕,平台会认为容器的主进程已经结束,导致容器陷入销毁与创建的循环。

      如果镜像中选择了智算云平台提供的专用镜像,则可以在启动命令中使用镜像内置的 /app/entrypoint.sh 脚本,快捷启动基于 FastChat 和 vLLM 的推理服务。示例:

      bash
      export MODEL=qwen-7b-chat
      export TP=1
      export LOG=1
      
      # 推理镜像中不包含 model,您需要挂载自己的模型
      # 建议放置在共享高性能存储中
      ln -s /path-to-your-model /app/model/${MODEL}
      
      /app/entrypoint.sh

      如果希望在专用 vLLM 镜像时使用自己的启动脚本,请参考实践教程 推理服务:使用 FastChat 和vLLM 部署大语言模型

  • 挂载信息

    • 文件存储: 挂载租户的共享高性能存储(例如,您可以将模型文件放在共享高性能存储中)。如果需要使用共享高性能存储,必须在创建任务时创建所有挂载点。详见存储
  • 网络配置

    • 端口: 配置监听端口(默认 8000)和调用端口(默认 80)。当前仅支持 HTTP 访问。

    NOTE

    如果推理服务使用预置镜像,默认使用 20000 为监控端口,暂不支持修改。AIStudio 的推理服务监控功能依赖该端口从镜像中采集业务监控数据。

  • 基本信息

    • 名称: 推理服务名称,最多 64 个字符,支持中英文数字以及- _。
    • 描述(可选): 上限 400 字符。

根据模型参数量,所需部署时间可能有差异。推理服务进入部署中状态后,将会执行一系列耗时的子操作。如果进度长期停留在部署中状态,建议查看详细部署进度。

查看部署进度

推理进入部署中状态后,将会执行一系列子操作。只要当前推理服务有一个实例完成所有子操作,即可运行成功。

如果部署进度长时间停留在部署中状态,建议在推理服务列表的状态栏中点击 ... 图标,在打开的弹窗中查看详细进度。

如果在任何子状态发生错误,平台会自动重试。如果进度长时间停留在错误状态且无法恢复,建议停止推理服务,并重新发起。如果问题持续存在,请联系售后服务。

alt text

调用推理服务

您可以访问智算云控制台的推理服务页面,在推理服务列表中找到您创建的服务,点击右侧的调用按钮,可查看该推理服务的调用信息。

alt text

内网访问推理服务

在智算云平台上,AIStudio 推理服务(通常是 API 服务)目前仅直接提供内网环境访问地址。如需测试,可以通过以下方式直接从内网访问:

  • 开发机
  • AICoder

AICoder 代理访问

在开发测试过程中,如有公网访问需求,我们可以利用智算云平台提供的另一个开发工具 —— AICoder。AICoder 可以作为代理,让我们访问这些内网的 API 服务。

请查看教程 通过 AICoder 访问智算云平台内网推理服务

申请公网访问地址

如果 AICoder 代理的方式无法满足您的需求,您也可以申请公网访问地址。

IMPORTANT

推理服务默认不会生成外网访问地址。如有需要,请联系 pre-sales@infini-ai.com