升级推理服务
本指南旨在详细说明如何安全、有效地升级您的推理服务。
适用场景
推理服务升级可以满足以下需求:
- 更改镜像文件,使用新版推理框架
- 更新启动命令
- 更新模型版本
为确保运行中的推理服务可以持续、稳定地提供服务,AIStudio 默认采用滚动更新的方式升级。
NOTE
单实例的推理服务会先启动新实例,再释放旧实例,以保证服务不受影响。
升级准备
在开始升级之前,请确保了解以下重要信息:
- 升级目的:升级旨在为推理服务引入新功能、提升服务性能或修复已知问题。
- 服务状态:确认当前服务状态处于可升级状态,包括:运行中、已停止。
DANGER
如果服务状态为运行中,但图标为红色,表示可能由于租户资源不足,导致该服务运行中的实例数少于要求的实例数。这种情况下无法正常完成滚动升级,建议考虑先释放部分同规格资源满足当前服务要求,或采用重启(停服)方式升级。
- 升级影响:评估升级对现有服务可能产生的影响。
升级流程
入口
升级操作可以通过以下两种方式进入:
- 在服务列表页,找到需要升级的服务,在操作栏点击「升级」按钮。
- 在推理服务详情页面的上方导航栏中,点击「升级」进入服务升级页面。
升级操作
在进入升级操作页面后,可以修改的字段如下:
实例规格:根据需求选择新的实例规格。默认选项为当前实例规格。
NOTE
Spot 实例升级暂不支持修改实例规格。
滚动更新:设置最大不可用百分比。例如,该服务预期实例数为 10 个,在设置最大不可用为 20% 时,滚动更新过程中会保证最少 8个可用。
NOTE
最大不可用实例数 = 推理服务预期实例数 * 最大不可用百分比(计算结果向下取整)
TIP
- 如果为 100,则表示不采用滚动升级。所有实例会同时重启进行更新,更新过程中不保证服务可用。
- 如果为 0,表示先启动新实例,再移除旧实例。请确保您有足够的资源启动额外的实例,否则可能会导致升级无法完成。
镜像:选择新的服务镜像。
NOTE
请注意保留升级前使用的镜像,否则无法支持服务回滚。
启动命令:根据新镜像,重新输入启动命令和传参。
存储配置
- 系统盘: 推理服务实例的
/
目录的存储大小,固定 50GB。 - 高性能存储:支持增删挂载路径。
- 系统盘: 推理服务实例的
完成修改后,点击「确认升级」即可启动升级流程。
升级后处理
升级后,系统会自动记录服务版本记录(例如,从 V1 升级到 V2)。
版本记录和回滚
在推理列表页和详情页中,可以看到当前推理服务的版本记录。
版本记录
- 在推理服务详情页的版本记录标签中,您可以查看服务的所有版本信息。
- 每一次确认升级,都会生成一条新的版本记录。
- 版本记录包括以下信息:
- 推理服务版本号
- 实例规格
- 镜像
- 启动命令
- 文件存储名称、ID
- 容器内访问地址(文件存储挂载点)
- 更新时间
回滚操作
- 如果升级后的服务出现问题,您可以选择回滚到之前的稳定版本。
- 在版本记录中,只要版本号小于当前版本,就可以选择回滚操作(当前版本和删除中的版本除外)。
状态监控
- 升级中状态:确认升级后,服务进入「升级中」状态,直到所有实例正常滚动升级完成。
- 回滚中状态:在回滚确认后,服务进入「回滚中」状态,直到回滚操作完成。
TIP
如果长期卡在「升级中」或「回滚中」状态,可尝试回滚或升级至其他版本。
常见问题
升级推理服务时可以修改实例数量吗?
不可以。升级操作不支持变更推理服务实例数量。您也可以通过「扩缩容」功能修改服务实例数。详见扩缩容。