服务告警
当推理服务运行在物理节点上时,如果节点出现硬件故障、网络异常或其他问题,可能会影响服务的正常执行。服务告警帮助您及时发现这些节点异常,在排查时区分业务侧问题(如应用日志、推理框架报错)与底层节点异常,更快定位硬件相关问题,减少故障排查时间。
注意
开发机、任务、推理服务的节点告警功能需申请开通,如有需要,请咨询商务或售后。
重要
处理建议:看到节点告警时,建议及时联系运维团队排查,避免问题扩大影响服务执行。
服务告警状态
告警数据来源于运维平台的节点监控系统,实时反映物理节点的健康状态。
注意
节点告警不一定导致推理服务整体失败。平台可能对异常实例进行重建等处理。详见故障排查。
告警如何显示
当运行中的推理服务所在物理节点出现异常时,平台会在以下位置显示告警提示:
- 推理服务列表页:服务状态显示为黄色的「运行中」,鼠标悬停可看到「节点异常」提示
- 推理服务详情页:状态区域同样显示黄色「运行中」标识和「节点异常」提示
- 实例信息列表:受影响的实例会显示异常标识
告警自动解除
当节点问题解决后,告警会自动消失:
注意
- 当某个实例的所有告警解除时,该实例在列表中的告警提示会自动消失。
- 当推理服务的所有实例的告警都解除时,推理服务列表和详情页的告警提示会自动消失。
查看服务告警历史
在推理服务详情页,点击服务告警标签页,可以查看告警记录。
当前触发告警与全部告警
标签页内提供二级切换,用于在不同范围内浏览列表:
- 当前触发告警:仅展示尚未解除的告警;列表提供告警类型等列,不提供「事件类型筛选」。
- 全部告警:展示全部告警相关记录,包括仍在发生的以及已通过「告警解除」等方式已解决的记录,便于对照触发与解除时间、做完整追溯。
排查线上问题时,可先在当前触发告警确认是否仍有未解除的节点异常;需要核对历史或时间线时,再切换到全部告警。
告警记录表格说明
告警历史表格包含以下信息:
| 字段 | 说明 |
|---|---|
| 时间 | 告警触发或解除的时间,按时间倒序展示(最新的在最前面) |
| 实例 ID | 出现告警的推理服务实例标识符,可用于定位具体的 Worker 实例 |
| 节点名称 | 物理节点的名称(该字段默认不展示;请联系售后或技术支持申请开通该展示能力) |
| 告警类型 | 告警的分类或名称,便于区分不同节点问题(当前触发告警列表展示该列;具体取值以控制台为准) |
| 告警事件 | 事件类型,包括触发告警和告警解除两种状态(在全部告警中结合历史记录查看) |
| 告警 ID | 告警事件的唯一识别码 |
功能特性
服务告警标签页提供以下功能:
- 当前触发告警 / 全部告警:标签页内二级切换,含义见上文当前触发告警与全部告警。
- 历史记录保留:服务告警记录保留最近 30 天的历史数据,超过 30 天的记录将被自动清理
- 时间排序:按告警时间倒序排列,最新的告警显示在最前面
- 实例 ID 搜索:在搜索框输入实例 ID 快速定位特定实例的告警记录
- 多告警支持:单个实例可以同时存在多条未解除的告警记录,这些告警可能对应不同的节点问题
注意
告警记录说明:
- 告警数据由运维平台的监控系统提供,反映物理节点的实时健康状态。
- 告警的详细信息(如具体的硬件指标、错误代码等)在当前版本暂不显示。如果看到节点告警提示,建议联系运维团队获取详细的诊断信息。
常见场景
服务运行缓慢或出现异常
如果您发现推理服务运行缓慢、性能下降或出现不明原因的错误:
- 检查服务状态:在推理服务列表或详情页查看是否显示黄色「运行中」状态及「节点异常」提示
- 查看告警历史:进入服务告警标签页,先在当前触发告警中确认是否有未解除的节点异常;需要追溯已解除记录时,切换到全部告警
- 定位问题实例:根据告警记录中的实例 ID,找到受影响的 Worker 实例
- 联系运维团队:将推理服务 ID、实例 ID 和节点名称提供给运维团队,协助快速定位和解决问题
排查服务失败或实例异常
当服务失败或部分实例异常时,节点问题可能是原因之一:
- 查看告警记录:在服务告警标签页查看当前触发告警与全部告警,检查问题发生期间是否有节点告警及解除记录
- 关联时间线:对比告警触发时间与服务/实例异常时间,判断是否存在因果关系
- 交叉验证:结合服务监控中的事件记录与日志,综合分析问题原因
注意
节点告警不一定导致服务失败。平台可能对异常实例自动重建。详见故障排查。