Skip to content

推理服务体验教程(公测专用)

跟随我们的体验教程,使用 Spot 资源快速部署一个模型推理服务,并测试服务的可用性。

NOTE

  • 快速体验使用了我们 Spot 资源和体验专用预置镜像。体验专用预置镜像中已包含 qwen1.5-0.5b-chat 模型以及推理服务依赖的运行环境。
  • 在测试阶段需要使用智算云平台开发机,为了确保体验顺利,我们建议您优先完成开发机快速体验教程

什么是 Spot 资源实例?

Spot 资源实例是一种利用闲置计算资源的虚拟实例,基于 Kubernetes 的 Spot 概念。具有以下特点:

  • 资源抢占: 当需要回收闲置资源时,Spot 实例会被终止。
  • 不保证可用性: Spot 实例不能保证一直可用,可能会被随时终止。

IMPORTANT

Spot 实例不保证可用性,暂不提供持久化存储。

创建推理服务

访问智算云控制台的创建推理服务页面。

创建推理服务

进入创建页面后,请根据页面提示,完成以下配置。

  • 规格信息:指定资源类型为 Spot。在公测体验中,实例规格仅限 1 种,实例数量仅限 1 个。

  • 基础配置:请根据下方要求填写:

    • 镜像:选择预置镜像,选择 qwen1.5-0.5b-chat:v1-vllm0.3-torch2.1-cuda12.3-ubuntu22.04

    • 启动命令:填写体验专用镜像的镜像的启动命令,其中包含了参数和环境配置。

      bash
      export MODEL=qwen1.5-0.5b-chat
      export TP=1
      export LOG=1
      
      # 模型已经放在 /app/model/${MODEL}
      /app/entrypoint.sh
  • 网络配置:当前仅支持 HTTP 访问,配置如下:

    • 修改默认值,监听端口为 8000,调用端口为 8000,供 API 服务使用。
  • 基本信息:填写推理服务名称。描述可留空。

根据模型参数量,所需部署时间可能有差异。您可能需要定期查看部署进度。

测试推理服务可用性

访问智算云控制台的推理服务页面,如果您创建的推理服务进入运行中,表示推理服务已部署成功,可以开始下方的测试流程。

TIP

公测期间单个用户仅允许使用 1 卡,因此无法进行可用性验证,若有深入测试需求请联系我们。

前置条件

IMPORTANT

由于推理服务默认仅提供内网访问地址,您可以在智算云创建一台开发机,在内网完成调用与测试。

请跟随开发机快速体验教程,使用 Spot 资源快速创建一个开发机。

测试步骤

  1. 登录开发机,设置以下几个环境变量。其中 API_SERVER_URL 环境变量为推理服务暴露的内部可访问地址,您可以从您自己的推理服务调用信息中获取内网访问地址。

    bash
    MODEL=llama-2-7b-chat
    API_SERVER_URL="http://if-c7ad7uufqubsdqyd:8000"
  2. 与推理服务交互。

    请求:

    shell
    curl ${API_SERVER_URL}/v1/chat/completions \
        -H "Content-Type: application/json" \
        -d '{
            "model": "'${MODEL}'",
            "messages": [
                { "role": "user", "content": "你是谁?" }
            ]
        }

如果 API 正常返回响应,则表示部署的模型推理服务工作正常,可以进行使用了。