故障处理
本文介绍了智算云平台推理服务功能的故障排查步骤。
实例日志
如果推理服务异常或失败,您可以在推理详情中查看实例日志。
- 当发生错误时,可以从推理服务列表或进入详情页后点击日志,查看所有的错误日志记录,找到第一个异常日志记录及其对应的 Pod 信息。
- 根据第一条错误日志的记录信息,查找相应的代码位置,分析可能的原因,例如通信超时退出、计算错误退出、硬件错误退出、Pod 或进程失去连接退出等。
登录推理服务实例
访问推理服务详情页可查看实例状态,可点击刷新获取当前最新状态。必要时可以登录实例进行错误排查或查询进程信息。
实例登录入口在推理服务详情页 实例信息中。
NOTE
仅在推理服务实例运行中时可登录。
自动重建推理实例
在推理服务运行过程中,如果实例进入异常状态,平台可自动重建实例,无需手动处理。
手动重建推理实例
推理服务支持在不停止线上服务的情况下手动重建指定实例。
在多实例的推理服务运行过程中,推理服务详情页的实例列表可能展示为运行中状态,但可通过服务日志、实例日志或其他方式发现某个实例处于异常状态。通常导致异常的原因包括:
- 某些线上推理请求可能导致实例异常
- 推理服务升级
- 推理服务扩缩容
在定位到具体实例后,可尝试手动对实例进行单独的重启操作。进入推理详情页,在实例列表中实例,点击重建。此操作将删除当前实例,重新创建全新实例。