GenStudio 推出 Infini 编码套餐(Coding Plan)GenStudio 推出 Infini 编码套餐(Coding Plan) ,接入多家顶尖厂商的主流编程模型了解更多
Skip to content

开发机告警

当开发机运行在物理节点上时,如果节点出现硬件故障、网络异常或其他问题,可能会影响开发环境的稳定使用。开发机告警帮助您及时发现这些节点异常,在排查时区分容器内的代码或配置问题与底层节点问题,更快定位硬件相关问题,减少故障排查时间。

注意

开发机、任务、推理服务的节点告警功能需申请开通,如有需要,请咨询商务或售后。

重要

处理建议:看到节点告警时,建议及时联系运维团队排查,避免问题扩大影响使用。

开发机告警状态

告警数据来源于运维平台的节点监控系统,实时反映物理节点的健康状态。

注意

节点告警不一定导致开发机立即不可用或关机;具体影响取决于异常类型与平台处理策略。若使用异常持续,请结合告警与故障排查综合判断。

告警如何显示

当运行中的开发机所在物理节点出现异常时,平台会在以下位置显示告警提示:

  • 开发机列表页:开发机状态显示为黄色的「运行中」,鼠标悬停可看到「节点异常」提示
  • 开发机详情页:状态区域同样显示黄色「运行中」标识和「节点异常」提示
  • 实例信息列表:受影响的实例会显示异常标识

告警自动解除

当节点问题解决后,告警会自动消失:

注意

  • 当某个实例的所有告警解除时,该实例在列表中的告警提示会自动消失。
  • 当开发机关联的所有实例的告警都解除时,开发机列表和详情页的告警提示会自动消失。

查看开发机告警历史

在开发机详情页,点击开发机告警标签页,可以查看告警记录。

当前触发告警与全部告警

标签页内提供二级切换,用于在不同范围内浏览列表:

  • 当前触发告警:仅展示尚未解除的告警;列表提供告警类型等列,不提供「事件类型筛选」
  • 全部告警:展示全部告警相关记录,包括仍在发生的以及已通过「告警解除」等方式已解决的记录,便于对照触发与解除时间、做完整追溯。

排查线上问题时,可先在当前触发告警确认是否仍有未解除的节点异常;需要核对历史或时间线时,再切换到全部告警

告警记录表格说明

告警历史表格包含以下信息:

字段说明
时间告警触发或解除的时间,按时间倒序展示(最新的在最前面)
开发机 ID出现告警的开发机标识符,可用于定位具体的开发机实例
节点名称物理节点的名称(该字段默认不展示;请联系售后或技术支持申请开通该展示能力)
告警类型告警的分类或名称,便于区分不同节点问题(当前触发告警列表展示该列;具体取值以控制台为准)
告警事件事件类型,包括触发告警告警解除两种状态(在全部告警中结合历史记录查看)
告警 ID告警事件的唯一识别码

功能特性

开发机告警标签页提供以下功能:

  • 当前触发告警 / 全部告警:标签页内二级切换,含义见上文当前触发告警与全部告警
  • 历史记录保留:开发机告警记录保留最近 30 天的历史数据,超过 30 天的记录将被自动清理
  • 时间排序:按告警时间倒序排列,最新的告警显示在最前面
  • 开发机 ID 搜索:在搜索框输入开发机 ID 快速定位该开发机的告警记录
  • 多告警支持:单个实例可以同时存在多条未解除的告警记录,这些告警可能对应不同的节点问题

注意

告警记录说明

  • 告警数据由运维平台的监控系统提供,反映物理节点的实时健康状态。
  • 告警的详细信息(如具体的硬件指标、错误代码等)在当前版本暂不显示。如果看到节点告警提示,建议联系运维团队获取详细的诊断信息。

常见场景

开发机运行缓慢或出现异常

如果您发现开发机运行缓慢、性能下降或出现不明原因的错误:

  1. 检查开发机状态:在开发机列表或详情页查看是否显示黄色「运行中」状态及「节点异常」提示
  2. 查看告警历史:进入开发机告警标签页,先在当前触发告警中确认是否有未解除的节点异常;需要追溯已解除记录时,切换到全部告警
  3. 核对受影响开发机:根据告警记录中的开发机 ID,确认与当前排查的开发机一致
  4. 联系运维团队:将开发机 ID 和节点名称提供给运维团队,协助快速定位和解决问题

排查连接失败或环境异常

当无法 SSH、Web Terminal 异常或环境表现异常时,节点问题可能是原因之一:

  1. 查看告警记录:在开发机告警标签页查看当前触发告警全部告警,检查问题发生前后是否有节点告警及解除记录
  2. 关联时间线:对比告警触发时间与异常出现时间,判断是否存在因果关系
  3. 交叉验证:结合资源与事件监控中的事件记录,综合分析问题原因

注意

节点告警不一定直接导致上述现象;请结合日志与监控一并排查。详见故障排查

相关功能