2024-11-21 一站式 AI 平台生日大派对!2024-11-21 一站式 AI 平台生日大派对! 无问芯穹特别推出多项超值福利!立即参与
Skip to content

故障处理

本文介绍了智算云平台推理服务功能的故障排查步骤。

实例日志

如果推理服务异常或失败,您可以在推理详情中查看实例日志。

  1. 当发生错误时,可以从推理服务列表或进入详情页后点击日志,查看所有的错误日志记录,找到第一个异常日志记录及其对应的 Pod 信息。
  2. 根据第一条错误日志的记录信息,查找相应的代码位置,分析可能的原因,例如通信超时退出、计算错误退出、硬件错误退出、Pod 或进程失去连接退出等。

登录推理服务实例

访问推理服务详情页可查看实例状态,可点击刷新获取当前最新状态。​必要时可以登录实例进行错误排查或查询进程信息。

实例登录入口在推理服务详情页 实例信息中。

alt text

NOTE

仅在推理服务实例运行中时可登录。

自动重建推理实例

在推理服务运行过程中,如果实例进入异常状态,平台可自动重建实例,无需手动处理。

手动重建推理实例

推理服务支持在不停止线上服务的情况下手动重建指定实例。

在多实例的推理服务运行过程中,推理服务详情页的实例列表可能展示为运行中状态,但可通过服务日志、实例日志或其他方式发现某个实例处于异常状态。通常导致异常的原因包括:

  • 某些线上推理请求可能导致实例异常
  • 推理服务升级
  • 推理服务扩缩容

在定位到具体实例后,可尝试手动对实例进行单独的重启操作。进入推理详情页,在实例列表中实例,点击重建。此操作将删除当前实例,重新创建全新实例。