故障处理
本文介绍了智算云平台推理服务功能的故障排查步骤。
查看推理服务日志
在推理服务运行过程中的所有日志(所有实例的日志),均会展示在推理服务详情页的日志标签页。
日志筛选
在查看推理服务日志时,可组合筛选条件:
- 实例:选择单个、全部实例,支持复选。如果是分布式推理服务,一个实例由多个 Worker 组成,可在下拉菜单中选择部分或全部 Worker。
- 时间: 根据时间筛选日志(精确到秒)。
日志搜索
支持全文查询、短语查询、正则表达式搜索日志。支持以下查询方式:
- 全文查询:输入关键字进行整条日志搜索。如果一条日志中出现所有关键词,则为一次匹配。支持模糊匹配。
- 短语查询:用户指定必须在日志中完整出现的「短语」。如果一条日志中完整「短语」,则为一次匹配。例如用户输入
http error
,如果一条日志中出现http error
,则为一次匹配。大小写不敏感。 - 正则表达式匹配:如果一条日志符合表达式要求,则为一次匹配。例如,输入
[0-9]+
查询连续数字。正则表达式语法与 OpenObserve 一致,参考 re_match。
注意
每条日志的前缀(时间,Worker 名称)不在日志搜索范围中。您可以通过组合筛选条件获取最准确的结果。支持先筛后搜或先搜后筛。
日志分析步骤
如果推理服务异常或失败,您可以参考以下步骤分析实例日志和 Worker 日志。
- 当发生错误时,可以从推理服务列表或进入详情页后点击日志,查看所有的错误日志记录,找到第一个异常日志记录及其对应的 Pod 信息。
- 根据第一条错误日志的记录信息,查找相应的代码位置,分析可能的原因,例如通信超时退出、计算错误退出、硬件错误退出、Pod 或进程失去连接退出等。
日志下载
在推理服务详情页「任务日志」页面可选择导出日志。
注意
日志下载功能需申请开通。
- 若您未对日志做任何筛选(时间筛选,实例筛选和搜索),则默认导出过去 30 天日志。
- 若当前已经进行筛选、搜索,则下载筛选、搜索后的日志。
导出日志量大时比较耗时,请耐心等待。平台将为您保存最近 5 条导出记录。
登录推理服务实例
访问推理服务详情页可查看实例状态,可点击刷新获取当前最新状态。必要时可以登录实例进行错误排查或查询进程信息。
实例登录入口在推理服务详情页 实例信息中。
注意
仅在推理服务实例运行中时可登录。
自动重建推理实例
在推理服务运行过程中,如果实例进入异常状态,平台可自动重建实例,无需手动处理。
手动重建推理实例
推理服务支持在不停止线上服务的情况下手动重建指定实例。
在多实例的推理服务运行过程中,推理服务详情页的实例列表可能展示为运行中状态,但可通过服务日志、实例日志或其他方式发现某个实例处于异常状态。通常导致异常的原因包括:
- 某些线上推理请求可能导致实例异常
- 推理服务升级
- 推理服务扩缩容
在定位到具体实例后,可尝试手动对实例进行单独的重启操作。进入推理详情页,在实例列表中实例,点击重建。此操作将删除当前实例,重新创建全新实例。