集群监控
AI 容器服务集群支持采集和展示监控数据,可以通过时间段筛选 GPU 使用率等指标。
网页端监控
本节描述集群详情页面会显示「监控」标签页的使用方法。
开启监控
如果创建集群时已选择开启监控,集群详情页面会显示「监控」标签页。您也可以按以下步骤,为集群启动监控功能。
登录 AI 容器服务平台,在左侧导航栏选择集群。
在集群页面的操作列,单击目标集群,或在操作栏点击详情,进入集群详情页面。
点击详情页底部的监控开关。
网页端监控指标
在集群「监控」标签页,可查看监控指标。
可观测指标
指标类型 | 粒度 | 支持维度 |
---|---|---|
GPU 使用率 | 1分钟聚合 | 暂仅支持集群 |
显存使用率 | 1分钟聚合 | 暂仅支持集群 |
可用卡数 | 实时状态 | 暂仅支持集群 |
空闲卡数 | 实时状态 | 暂仅支持集群 |
时间范围
- 默认显示:最近1小时
- 最大回溯:30天(需注意历史数据精度衰减)
- 自定义时间窗口:支持任意时间段组合查询
已知限制
- 暂无节点级监控。
- 暂无 Pod 级监控。无法查看具体容器的 GPU 资源消耗(如单个训练任务的显存占用)。
Kubelet 的 监控 API
暂不支持 Kubelet 的 /stats/summary
。
集群内的 prometheus
开启集群监控后AI 容器服务平台会在集群内部署监控服务。
shell
% kubectl get deployments -n monitoring
NAME READY UP-TO-DATE AVAILABLE AGE
prometheus-kube-prometheus-operator 1/1 1 1 160m
prometheus-kube-state-metrics 1/1 1 1 160m
% kubectl get pods -n monitoring
NAME READY STATUS RESTARTS AGE
prometheus-kube-prometheus-operator-586c7b58bd-d4xkn 1/1 Running 0 30m
prometheus-kube-state-metrics-d4fb5dfdc-9s5qb 1/1 Running 0 30m
prometheus-prometheus-kube-prometheus-prometheus-0 2/2 Running 0 30m
WARNING
请勿删除非用户自行创建的监控相关资源(如 Prometheus 相关对象),否则可能导致 AI 容器服务集群的监控功能不可用。
您可以为业务服务创建 servicemonitor。servicemonitor 对象必须加上 label.release. prometheus
,代表由集群内的 prometheus 实例采集指标。
yaml
apiVersion: monitoring.coreos.com/v1
kind: ServiceMonitor
metadata:
labels:
release: prometheus
name: qwen
namespace: default
spec:
endpoints:
- honorLabels: false
interval: 15s
path: /metrics
port: metrics
relabelings: []
namespaceSelector:
matchNames:
- default
selector:
matchLabels:
app: qwen-1-5
NOTE
暂无法支持在 AI 容器服务平台网页端直接查看自定义采集的数据。如有需要,请联系技术支持。