在 AIStudio 镜像中心使用 Dockerfile 自助构建最新版 vLLM 镜像在 AIStudio 镜像中心使用 Dockerfile 自助构建最新版 vLLM 镜像 ,无需访问 DockerHub立即构建
Skip to content

任务告警

当任务运行在物理节点上时,如果节点出现硬件故障、网络异常或其他问题,可能会影响任务的正常执行。任务告警功能帮助您及时发现这些节点异常,快速定位问题根源。

重要

处理建议:看到节点告警时,建议及时联系运维团队排查,避免问题扩大影响任务执行

任务告警状态

告警数据来源于运维平台的节点监控系统,实时反映物理节点的健康状态。

注意

节点告警不一定导致任务失败。平台的容错机制会尝试自动处理部分节点异常。详见任务容错

告警如何显示

当运行中的任务所在物理节点出现异常时,平台会在以下位置显示告警提示:

alt text

  • 任务列表页:任务状态显示为黄色的「运行中」,鼠标悬停可看到「节点异常」提示
  • 任务详情页:状态区域同样显示黄色「运行中」标识和「节点异常」提示
  • Worker 信息列表:受影响的 worker 会显示异常标识

alt text

告警自动解除

当节点问题解决后,告警会自动消失:

注意

  • 当某个 worker 的所有告警解除时,该 worker 列表中的告警提示会自动消失。
  • 当任务的所有 worker 的告警都解除时,任务列表和详情页的告警提示会自动消失。

查看任务告警历史

在任务详情页,点击任务告警标签页,可以查看完整的告警历史记录。

任务告警历史记录

告警记录表格说明

告警历史表格包含以下信息:

字段说明
时间告警触发或解除的时间,按时间倒序展示(最新的在最前面)
Worker ID出现告警的 worker 标识符,可用于定位具体的工作进程
节点名称物理节点的名称(该字段默认不展示;请联系售后或技术支持申请开通该展示能力)
告警事件事件类型,包括触发告警告警解除两种状态
告警 ID告警事件的唯一识别码

功能特性

任务告警标签页提供以下功能:

  • 历史记录保留:任务告警记录保留最近 30 天的历史数据,超过 30 天的记录将被自动清理
  • 时间排序:按告警时间倒序排列,最新的告警显示在最前面
  • Worker ID 搜索:在搜索框输入 worker ID 快速定位特定 worker 的告警记录
  • 事件类型筛选:可按「触发告警」或「告警解除」筛选记录
  • 多告警支持:单个 worker 可以同时存在多条未解除的告警记录,这些告警可能对应不同的节点问题

注意

告警记录说明

  • 告警数据由运维平台的监控系统提供,反映物理节点的实时健康状态。
  • 告警的详细信息(如具体的硬件指标、错误代码等)在当前版本暂不显示。如果看到节点告警提示,建议联系运维团队获取详细的诊断信息。

常见场景

任务运行缓慢或出现异常

如果您发现任务运行缓慢、性能下降或出现不明原因的错误:

  1. 检查任务状态:在任务列表或详情页查看是否显示黄色「运行中」状态
  2. 查看告警历史:进入任务告警标签页,查看是否有节点告警记录
  3. 定位问题 Worker:根据告警记录中的 Worker ID,找到受影响的工作进程
  4. 联系运维团队:将任务 ID、Worker ID 和节点名称提供给运维团队,协助快速定位和解决问题

排查任务失败原因

当任务失败时,节点异常可能是原因之一:

  1. 查看告警记录:检查任务运行期间是否有节点告警
  2. 关联时间线:对比告警触发时间和任务失败时间,判断是否存在因果关系
  3. 交叉验证:结合任务监控中的事件日志,综合分析问题原因

注意

节点告警不一定导致任务失败。平台的容错机制会尝试自动处理部分节点异常。详见任务容错

相关功能