Skip to content

升级推理服务

本指南旨在详细说明如何安全、有效地升级您的推理服务。

适用场景

推理服务升级可以满足以下需求:

  • 更改镜像文件,使用新版推理框架
  • 更新启动命令
  • 更新模型版本

为确保运行中的推理服务可以持续、稳定地提供服务,AIStudio 默认采用滚动更新的方式升级。

NOTE

单实例的推理服务会先启动新实例,再释放旧实例,以保证服务不受影响。

升级准备

在开始升级之前,请确保了解以下重要信息:

  • 升级目的:升级旨在为推理服务引入新功能、提升服务性能或修复已知问题。
  • 服务状态:确认当前服务状态处于可升级状态,包括:运行中已停止

    DANGER

    如果服务状态为运行中,但图标为红色,表示可能由于租户资源不足,导致该服务运行中的实例数少于要求的实例数。这种情况下无法正常完成滚动升级,建议考虑先释放部分同规格资源满足当前服务要求,或采用重启(停服)方式升级。

  • 升级影响:评估升级对现有服务可能产生的影响。

升级流程

入口

升级操作可以通过以下两种方式进入:

  1. 在服务列表页,找到需要升级的服务,在操作栏点击「升级」按钮。
  2. 在推理服务详情页面的上方导航栏中,点击「升级」进入服务升级页面。

升级操作

在进入升级操作页面后,可以修改的字段如下:

  • 实例规格:根据需求选择新的实例规格。默认选项为当前实例规格。

    NOTE

    Spot 实例升级暂不支持修改实例规格。

  • 滚动更新:设置最大不可用百分比。例如,该服务预期实例数为 10 个,在设置最大不可用为 20% 时,滚动更新过程中会保证最少 8个可用。如果为 0,表示先启动新实例,再移除旧实例。

    NOTE

    最大不可用实例数 = 推理服务预期实例数 * 最大不可用百分比(计算结果向下取整)

    TIP

    如果为 100,则表示不采用滚动升级。所有实例会同时重启进行更新,更新过程中不保证服务可用。

  • 镜像:选择新的服务镜像。

    NOTE

    请注意保留升级前使用的镜像,否则无法支持服务回滚。

  • 启动命令:根据新镜像,重新输入启动命令和传参。

  • 挂载信息:支持增删挂载路径。

完成修改后,点击「确认升级」即可启动升级流程。

升级后处理

升级后,系统会自动记录服务版本记录(例如,从 V1 升级到 V2)。

版本记录和回滚

在推理列表页和详情页中,可以看到当前推理服务的版本记录。

版本记录

  • 在推理服务详情页的版本记录标签中,您可以查看服务的所有版本信息。
  • 每一次确认升级,都会生成一条新的版本记录。
  • 版本记录包括以下信息:
    • 推理服务版本号
    • 实例规格
    • 镜像
    • 启动命令
    • 文件存储名称、ID
    • 容器内访问地址(文件存储挂载点)
    • 更新时间

回滚操作

  • 如果升级后的服务出现问题,您可以选择回滚到之前的稳定版本。
  • 在版本记录中,只要版本号小于当前版本,就可以选择回滚操作(当前版本和删除中的版本除外)。

状态监控

  • 升级中状态:确认升级后,服务进入「升级中」状态,直到所有实例正常滚动升级完成。
  • 回滚中状态:在回滚确认后,服务进入「回滚中」状态,直到回滚操作完成。

TIP

如果长期卡在「升级中」或「回滚中」状态,可尝试回滚或升级至其他版本。