GenStudio 于 2025 年 5 月 推出 GenStudio 高级版/企业版升级服务,大幅提升 API 调用频率GenStudio 于 2025 年 5 月 推出 GenStudio 高级版/企业版升级服务,大幅提升 API 调用频率 ,依然保留免费基础服务了解计费
Skip to content

故障处理

本文介绍了智算云平台推理服务功能的故障排查步骤。

查看推理服务日志

在推理服务运行过程中的所有日志(所有实例的日志),均会展示在推理服务详情页的日志标签页。

日志筛选

在查看推理服务日志时,可组合筛选条件:

  • 实例:选择单个、全部实例,支持复选。如果是分布式推理服务,一个实例由多个 Worker 组成,可在下拉菜单中选择部分或全部 Worker。
  • 时间: 根据时间筛选日志(精确到秒)。

日志搜索

支持全文查询、短语查询、正则表达式搜索日志。支持以下查询方式:

  • 全文查询:输入关键字进行整条日志搜索。如果一条日志中出现所有关键词,则为一次匹配。支持模糊匹配。
  • 短语查询:用户指定必须在日志中完整出现的「短语」。如果一条日志中完整「短语」,则为一次匹配。例如用户输入 http error,如果一条日志中出现 http error,则为一次匹配。大小写不敏感。
  • 正则表达式匹配:如果一条日志符合表达式要求,则为一次匹配。例如,输入 [0-9]+ 查询连续数字。正则表达式语法与 OpenObserve 一致,参考 re_match

注意

每条日志的前缀(时间,Worker 名称)不在日志搜索范围中。您可以通过组合筛选条件获取最准确的结果。支持先筛后搜或先搜后筛。

日志分析步骤

如果推理服务异常或失败,您可以参考以下步骤分析实例日志和 Worker 日志。

  1. 当发生错误时,可以从推理服务列表或进入详情页后点击日志,查看所有的错误日志记录,找到第一个异常日志记录及其对应的 Pod 信息。
  2. 根据第一条错误日志的记录信息,查找相应的代码位置,分析可能的原因,例如通信超时退出、计算错误退出、硬件错误退出、Pod 或进程失去连接退出等。

日志下载

在推理服务详情页「任务日志」页面可选择导出日志

注意

日志下载功能需申请开通。

  • 若您未对日志做任何筛选(时间筛选,实例筛选和搜索),则默认导出过去 30 天日志。
  • 若当前已经进行筛选、搜索,则下载筛选、搜索后的日志。

导出日志量大时比较耗时,请耐心等待。平台将为您保存最近 5 条导出记录。

登录推理服务实例

访问推理服务详情页可查看实例状态,可点击刷新获取当前最新状态。​必要时可以登录实例进行错误排查或查询进程信息。

实例登录入口在推理服务详情页 实例信息中。

alt text

注意

仅在推理服务实例运行中时可登录。

自动重建推理实例

在推理服务运行过程中,如果实例进入异常状态,平台可自动重建实例,无需手动处理。

手动重建推理实例

推理服务支持在不停止线上服务的情况下手动重建指定实例。

在多实例的推理服务运行过程中,推理服务详情页的实例列表可能展示为运行中状态,但可通过服务日志、实例日志或其他方式发现某个实例处于异常状态。通常导致异常的原因包括:

  • 某些线上推理请求可能导致实例异常
  • 推理服务升级
  • 推理服务扩缩容

在定位到具体实例后,可尝试手动对实例进行单独的重启操作。进入推理详情页,在实例列表中实例,点击重建。此操作将删除当前实例,重新创建全新实例。