Appearance
推理服务体验教程(公测专用)
跟随我们的体验教程,使用 Spot 资源快速部署一个模型推理服务,并测试服务的可用性。
NOTE
- 快速体验使用了我们 Spot 资源和体验专用预置镜像。体验专用预置镜像中已包含
qwen1.5-0.5b-chat
模型以及推理服务依赖的运行环境。 - 在测试阶段需要使用智算云平台开发机,为了确保体验顺利,我们建议您优先完成开发机快速体验教程。
什么是 Spot 资源实例?
Spot 资源实例是一种利用闲置计算资源的虚拟实例,基于 Kubernetes 的 Spot 概念。具有以下特点:
- 资源抢占: 当需要回收闲置资源时,Spot 实例会被终止。
- 不保证可用性: Spot 实例不能保证一直可用,可能会被随时终止。
IMPORTANT
Spot 实例不保证可用性,暂不提供持久化存储。
创建推理服务
访问智算云控制台的创建推理服务页面。
创建推理服务
进入创建页面后,请根据页面提示,完成以下配置。
规格信息:指定资源类型为 Spot。在公测体验中,实例规格仅限 1 种,实例数量仅限 1 个。
基础配置:请根据下方要求填写:
镜像:选择预置镜像,选择
qwen1.5-0.5b-chat:v1-vllm0.3-torch2.1-cuda12.3-ubuntu22.04
。启动命令:填写体验专用镜像的镜像的启动命令,其中包含了参数和环境配置。
bashexport MODEL=qwen1.5-0.5b-chat export TP=1 export LOG=1 # 模型已经放在 /app/model/${MODEL} /app/entrypoint.sh
网络配置:当前仅支持 HTTP 访问,配置如下:
- 修改默认值,监听端口为 8000,调用端口为 8000,供 API 服务使用。
基本信息:填写推理服务名称。描述可留空。
根据模型参数量,所需部署时间可能有差异。您可能需要定期查看部署进度。
测试推理服务可用性
访问智算云控制台的推理服务页面,如果您创建的推理服务进入运行中,表示推理服务已部署成功,可以开始下方的测试流程。
TIP
公测期间单个用户仅允许使用 1 卡,因此无法进行可用性验证,若有深入测试需求请联系我们。
前置条件
测试步骤
登录开发机,设置以下几个环境变量。其中
API_SERVER_URL
环境变量为推理服务暴露的内部可访问地址,您可以从您自己的推理服务调用信息中获取内网访问地址。bashMODEL=llama-2-7b-chat API_SERVER_URL="http://if-c7ad7uufqubsdqyd:8000"
与推理服务交互。
请求:
shellcurl ${API_SERVER_URL}/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{ "model": "'${MODEL}'", "messages": [ { "role": "user", "content": "你是谁?" } ] }
如果 API 正常返回响应,则表示部署的模型推理服务工作正常,可以进行使用了。