部署与调用推理服务
本章节将介绍如何部署和调用模型推理服务。
部署前准备
在部署模型推理服务之前,请确保满足以下条件:
模型:使用开发机上传模型,或使用平台训练任务生成的模型。
资源:请检查当前资源池,确保存在可支持待部署模型的资源规格。
TIP
暂不支持展示和查询资源池余量。
镜像:该推理服务依赖的镜像,您可以使用镜像中心的预置镜像;或提前创建自定义镜像,上传至镜像中心。
创建推理服务
访问智算云控制台的推理服务页面,可创建推理服务。
进入创建页面后,请根据页面提示,完成以下配置。
规格信息
- 资源池:您购买的资源池,其中可能包含一种或多种实例规格。
- 实例规格: 选择运行服务的计算资源规格。每种规格对应一个特定的 CPU、显卡、内存配置组合。
- 实例数量: 预期运行的实例数。实例数大于 1 时自动提供负载均衡。仅在当前资源池可用实例大于等于 1 时,该推理服务可部署成功。
- 滚动更新: 设置最大不可用百分比,该参数仅影响服务升级与回滚。在开发测试阶段,单实例的情况下可设置为 0,多实例的情况下可设置为 50%。详细说明请移步升级服务。
基础配置
镜像: 选择推理服务的预置镜像,或选择租户上传的自定义镜像。
TIP
AIStudio 推理服务预置了包含 FastChat 与 vLLM 的容器镜像,可简化大型语言模型的部署过程。目前已提供的专用镜像名称:
cr.infini-ai.com/infini-ai/inference-base:v1-vllm0.4.0-torch2.1-cuda12.3-ubuntu22.04
启动命令: 镜像的启动命令。请根据当前镜像,写入必要命令和环境配置。
TIP
请特别注意容器的生命周期管理,在启动命令中需要有一个前台运行的主进程。如果全部使用
nohup
命令启动服务,当容器的启动命令执行完毕,平台会认为容器的主进程已经结束,导致容器陷入销毁与创建的循环。如果镜像中选择了智算云平台提供的专用镜像,则可以在启动命令中使用镜像内置的
/app/entrypoint.sh
脚本,快捷启动基于 FastChat 和 vLLM 的推理服务。示例:bashexport MODEL=qwen-7b-chat export TP=1 export LOG=1 # 推理镜像中不包含 model,您需要挂载自己的模型 # 建议放置在共享高性能存储中 ln -s /path-to-your-model /app/model/${MODEL} /app/entrypoint.sh
如果希望在专用 vLLM 镜像时使用自己的启动脚本,请参考实践教程 推理服务:使用 FastChat 和vLLM 部署大语言模型。
挂载信息
- 文件存储: 挂载租户的共享高性能存储(例如,您可以将模型文件放在共享高性能存储中)。如果需要使用共享高性能存储,必须在创建任务时创建所有挂载点。详见存储。
网络配置
- 端口: 配置监听端口(默认 8000)和调用端口(默认 80)。当前仅支持 HTTP 访问。
NOTE
如果推理服务使用预置镜像,默认使用 20000 为监控端口,暂不支持修改。AIStudio 的推理服务监控功能依赖该端口从镜像中采集业务监控数据。
基本信息
- 名称: 推理服务名称,最多 64 个字符,支持中英文数字以及- _。
- 描述(可选): 上限 400 字符。
根据模型参数量,所需部署时间可能有差异。推理服务进入部署中状态后,将会执行一系列耗时的子操作。如果进度长期停留在部署中状态,建议查看详细部署进度。
查看部署进度
推理进入部署中状态后,将会执行一系列子操作。只要当前推理服务有一个实例完成所有子操作,即可运行成功。
如果部署进度长时间停留在部署中状态,建议在推理服务列表的状态栏中点击 ...
图标,在打开的弹窗中查看详细进度。
如果在任何子状态发生错误,平台会自动重试。如果进度长时间停留在错误状态且无法恢复,建议停止推理服务,并重新发起。如果问题持续存在,请联系售后服务。
调用推理服务
您可以访问智算云控制台的推理服务页面,在推理服务列表中找到您创建的服务,点击右侧的调用按钮,可查看该推理服务的调用信息。
内网访问推理服务
在智算云平台上,AIStudio 推理服务(通常是 API 服务)目前仅直接提供内网环境访问地址。如需测试,可以通过以下方式直接从内网访问:
- 开发机
- AICoder
AICoder 代理访问
在开发测试过程中,如有公网访问需求,我们可以利用智算云平台提供的另一个开发工具 —— AICoder。AICoder 可以作为代理,让我们访问这些内网的 API 服务。
请查看教程 通过 AICoder 访问智算云平台内网推理服务。
申请公网访问地址
如果 AICoder 代理的方式无法满足您的需求,您也可以申请公网访问地址。
IMPORTANT
推理服务默认不会生成外网访问地址。如有需要,请联系 pre-sales@infini-ai.com
。