Skip to content

部署与调用推理服务

本章节将介绍如何部署和调用模型推理服务。

部署前准备

在部署模型推理服务之前,请确保满足以下条件:

  • 模型:使用开发机上传模型,或使用平台训练任务生成的模型。

  • 资源:请检查当前资源池,确保存在可支持待部署模型的资源规格。

    TIP

    暂不支持展示和查询资源池余量。

  • 镜像:该推理服务依赖的镜像,您可以使用镜像中心的预置镜像;或提前创建自定义镜像,上传至镜像中心。

  • 启动命令:已准备好启动命令,提供启动推理服务的必要配置。示例:

    bash
    export MODEL=qwen-7b-chat
    export TP=1
    export LOG=1
    
    # 推理镜像中不包含 model,您需要挂载自己的模型
    ln -s /mnt/resource/public_models/Qwen_Qwen-7B-Chat /app/model/${MODEL}
    
    /app/entrypoint.sh

创建推理服务

访问智算云控制台的推理服务页面,可创建推理服务。

进入创建页面后,请根据页面提示,完成以下配置。

  • 规格信息

    • 资源池:您购买的资源池,其中可能包含一种或多种实例规格。
    • 实例规格: 选择运行服务的计算资源规格。每种规格对应一个特定的 CPU、显卡、内存配置组合。
    • 实例数量: 预期运行的实例数。实例数大于 1 时自动提供负载均衡。仅在当前资源池可用实例大于等于 1 时,该推理服务可部署成功。
    • 滚动更新: 设置最大不可用百分比,该参数仅影响服务升级与回滚。在开发测试阶段,单实例的情况下可设置为 0,多实例的情况下可设置为 50%。详细说明请移步升级服务
  • 基础配置

    • 镜像: 选择预置镜像或自定义镜像。
    • 启动命令: 镜像的启动命令,传入必要的一些参数和环境配置。
  • 挂载信息

    • 文件存储: 挂载租户的共享文件存储(例如,您可以将模型文件放在共享文件存储中)。如果需要使用共享文件存储,必须在创建任务时创建所有挂载点。详见存储
  • 网络配置

    • 端口: 配置监听端口(默认 8000)和调用端口(默认 80)。当前仅支持 HTTP 访问。

    NOTE

    如果推理服务使用预置镜像,默认使用 20000 为监控端口,暂不支持修改。AIStudio 的推理服务监控功能依赖该端口从镜像中采集业务监控数据。

  • 基本信息

    • 名称: 推理服务名称,最多 64 个字符,支持中英文数字以及- _。
    • 描述(可选): 上限 400 字符。

根据模型参数量,所需部署时间可能有差异。推理服务进入部署中状态后,将会执行一系列耗时的子操作。如果进度长期停留在部署中状态,建议查看详细部署进度。

查看部署进度

推理进入部署中状态后,将会执行一系列子操作。只要当前推理服务有一个实例完成所有子操作,即可运行成功。

如果部署进度长时间停留在部署中状态,建议在推理服务列表的状态栏中点击 ... 图标,在打开的弹窗中查看详细进度。

如果在任何子状态发生错误,平台会自动重试。如果进度长时间停留在错误状态且无法恢复,建议停止推理服务,并重新发起。如果问题持续存在,请联系售后服务。

alt text

调用推理服务

您可以访问智算云控制台的推理服务页面,在推理服务列表中找到您创建的服务,点击右侧的调用按钮,可查看该推理服务的调用信息,其中包含内网、外网访问地址。

alt text

IMPORTANT

推理服务默认不会生成外网访问地址。如有需要,请联系 pre-sales@infini-ai.com