推理服务体验教程（公测专用）

跟随我们的体验教程，使用 Spot 资源快速部署一个模型推理服务，并测试服务的可用性。

NOTE

快速体验使用了我们 Spot 资源和体验专用预置镜像。体验专用预置镜像中已包含 qwen1.5-0.5b-chat 模型以及推理服务依赖的运行环境。
在测试阶段需要使用智算云平台开发机，为了确保体验顺利，我们建议您优先完成开发机快速体验教程。

什么是 Spot 资源实例？

Spot 资源实例是一种利用闲置计算资源的虚拟实例，基于 Kubernetes 的 Spot 概念。具有以下特点：

资源抢占：当需要回收闲置资源时，Spot 实例会被终止。
不保证可用性： Spot 实例不能保证一直可用，可能会被随时终止。

IMPORTANT

Spot 实例不保证可用性，暂不提供持久化存储。

创建推理服务

访问智算云控制台的创建推理服务页面。

创建推理服务

进入创建页面后，请根据页面提示，完成以下配置。

规格信息：指定资源类型为 Spot。在公测体验中，实例规格仅限 1 种，实例数量仅限 1 个。
基础配置：请根据下方要求填写：
- 镜像：选择预置镜像，选择 qwen1.5-0.5b-chat:v1-vllm0.3-torch2.1-cuda12.3-ubuntu22.04。
- 启动命令：填写体验专用镜像的镜像的启动命令，其中包含了参数和环境配置。
  bash
```
export MODEL=qwen1.5-0.5b-chat
export TP=1
export LOG=1

# 模型已经放在 /app/model/${MODEL}
/app/entrypoint.sh
```
网络配置：当前仅支持 HTTP 访问，配置如下：
- 修改默认值，监听端口为 8000，调用端口为 8000，供 API 服务使用。
基本信息：填写推理服务名称。描述可留空。

根据模型参数量，所需部署时间可能有差异。您可能需要定期查看部署进度。

测试推理服务可用性

访问智算云控制台的推理服务页面，如果您创建的推理服务进入运行中，表示推理服务已部署成功，可以开始下方的测试流程。

TIP

公测期间单个用户仅允许使用 1 卡，因此无法进行可用性验证，若有深入测试需求请联系我们。

前置条件

IMPORTANT

由于推理服务默认仅提供内网访问地址，您可以在智算云创建一台开发机，在内网完成调用与测试。

请跟随开发机快速体验教程，使用 Spot 资源快速创建一个开发机。

测试步骤

登录开发机，设置以下几个环境变量。其中 API_SERVER_URL 环境变量为推理服务暴露的内部可访问地址，您可以从您自己的推理服务调用信息中获取内网访问地址。
bash
```
MODEL=llama-2-7b-chat
API_SERVER_URL="http://if-c7ad7uufqubsdqyd:8000"
```

与推理服务交互。

请求：

shell

curl ${API_SERVER_URL}/v1/chat/completions \
    -H "Content-Type: application/json" \
    -d '{
        "model": "'${MODEL}'",
        "messages": [
            { "role": "user", "content": "你是谁？" }
        ]
    }

如果 API 正常返回响应，则表示部署的模型推理服务工作正常，可以进行使用了。

推理服务体验教程（公测专用） ​

什么是 Spot 资源实例？ ​

创建推理服务 ​

测试推理服务可用性 ​

前置条件 ​

测试步骤 ​

推理服务体验教程（公测专用）

什么是 Spot 资源实例？

创建推理服务

测试推理服务可用性

前置条件

测试步骤