GenStudio 推出 Infini 编码套餐(Coding Plan)GenStudio 推出 Infini 编码套餐(Coding Plan) ,接入多家顶尖厂商的主流编程模型了解更多
Skip to content

服务告警

当推理服务运行在物理节点上时,如果节点出现硬件故障、网络异常或其他问题,可能会影响服务的正常执行。服务告警帮助您及时发现这些节点异常,在排查时区分业务侧问题(如应用日志、推理框架报错)与底层节点异常,更快定位硬件相关问题,减少故障排查时间。

注意

开发机、任务、推理服务的节点告警功能需申请开通,如有需要,请咨询商务或售后。

重要

处理建议:看到节点告警时,建议及时联系运维团队排查,避免问题扩大影响服务执行。

服务告警状态

告警数据来源于运维平台的节点监控系统,实时反映物理节点的健康状态。

注意

节点告警不一定导致推理服务整体失败。平台可能对异常实例进行重建等处理。详见故障排查

告警如何显示

当运行中的推理服务所在物理节点出现异常时,平台会在以下位置显示告警提示:

  • 推理服务列表页:服务状态显示为黄色的「运行中」,鼠标悬停可看到「节点异常」提示
  • 推理服务详情页:状态区域同样显示黄色「运行中」标识和「节点异常」提示
  • 实例信息列表:受影响的实例会显示异常标识

告警自动解除

当节点问题解决后,告警会自动消失:

注意

  • 当某个实例的所有告警解除时,该实例在列表中的告警提示会自动消失。
  • 当推理服务的所有实例的告警都解除时,推理服务列表和详情页的告警提示会自动消失。

查看服务告警历史

在推理服务详情页,点击服务告警标签页,可以查看告警记录。

当前触发告警与全部告警

标签页内提供二级切换,用于在不同范围内浏览列表:

  • 当前触发告警:仅展示尚未解除的告警;列表提供告警类型等列,不提供「事件类型筛选」
  • 全部告警:展示全部告警相关记录,包括仍在发生的以及已通过「告警解除」等方式已解决的记录,便于对照触发与解除时间、做完整追溯。

排查线上问题时,可先在当前触发告警确认是否仍有未解除的节点异常;需要核对历史或时间线时,再切换到全部告警

告警记录表格说明

告警历史表格包含以下信息:

字段说明
时间告警触发或解除的时间,按时间倒序展示(最新的在最前面)
实例 ID出现告警的推理服务实例标识符,可用于定位具体的 Worker 实例
节点名称物理节点的名称(该字段默认不展示;请联系售后或技术支持申请开通该展示能力)
告警类型告警的分类或名称,便于区分不同节点问题(当前触发告警列表展示该列;具体取值以控制台为准)
告警事件事件类型,包括触发告警告警解除两种状态(在全部告警中结合历史记录查看)
告警 ID告警事件的唯一识别码

功能特性

服务告警标签页提供以下功能:

  • 当前触发告警 / 全部告警:标签页内二级切换,含义见上文当前触发告警与全部告警
  • 历史记录保留:服务告警记录保留最近 30 天的历史数据,超过 30 天的记录将被自动清理
  • 时间排序:按告警时间倒序排列,最新的告警显示在最前面
  • 实例 ID 搜索:在搜索框输入实例 ID 快速定位特定实例的告警记录
  • 多告警支持:单个实例可以同时存在多条未解除的告警记录,这些告警可能对应不同的节点问题

注意

告警记录说明

  • 告警数据由运维平台的监控系统提供,反映物理节点的实时健康状态。
  • 告警的详细信息(如具体的硬件指标、错误代码等)在当前版本暂不显示。如果看到节点告警提示,建议联系运维团队获取详细的诊断信息。

常见场景

服务运行缓慢或出现异常

如果您发现推理服务运行缓慢、性能下降或出现不明原因的错误:

  1. 检查服务状态:在推理服务列表或详情页查看是否显示黄色「运行中」状态及「节点异常」提示
  2. 查看告警历史:进入服务告警标签页,先在当前触发告警中确认是否有未解除的节点异常;需要追溯已解除记录时,切换到全部告警
  3. 定位问题实例:根据告警记录中的实例 ID,找到受影响的 Worker 实例
  4. 联系运维团队:将推理服务 ID、实例 ID 和节点名称提供给运维团队,协助快速定位和解决问题

排查服务失败或实例异常

当服务失败或部分实例异常时,节点问题可能是原因之一:

  1. 查看告警记录:在服务告警标签页查看当前触发告警全部告警,检查问题发生期间是否有节点告警及解除记录
  2. 关联时间线:对比告警触发时间与服务/实例异常时间,判断是否存在因果关系
  3. 交叉验证:结合服务监控中的事件记录与日志,综合分析问题原因

注意

节点告警不一定导致服务失败。平台可能对异常实例自动重建。详见故障排查

相关功能