故障处理
本文介绍了智算云平台推理服务功能的故障排查步骤。
实例日志
如果推理服务异常或失败,您可以在推理详情中查看实例日志。
- 当发生错误时,可以从推理服务列表或进入详情页后点击日志,查看所有的错误日志记录,找到第一个异常日志记录及其对应的 Pod 信息。
- 根据第一条错误日志的记录信息,查找相应的代码位置,分析可能的原因,例如通信超时退出、计算错误退出、硬件错误退出、Pod 或进程失去连接退出等。
登录推理服务实例
访问推理服务详情页可查看实例状态,可点击刷新获取当前最新状态。必要时可以登录实例进行错误排查或查询进程信息。
实例登录入口在推理服务详情页 实例信息中。
NOTE
仅在推理服务实例运行中时可登录。