AIStudio SSH 公钥管理,一处配置,处处可用AIStudio SSH 公钥管理,一处配置,处处可用 ,只为更佳开发体验如何配置
Skip to content

集群监控

AI 容器服务集群支持采集和展示监控数据,可以通过时间段筛选 GPU 使用率等指标。

网页端监控

本节描述集群详情页面会显示「监控」标签页的使用方法。

开启监控

如果创建集群时已选择开启监控,集群详情页面会显示「监控」标签页。您也可以按以下步骤,为集群启动监控功能。

  1. 登录 AI 容器服务平台,在左侧导航栏选择集群

  2. 集群页面的操作列,单击目标集群,或在操作栏点击详情,进入集群详情页面。

  3. 点击详情页底部的监控开关。

网页端监控指标

在集群「监控」标签页,可查看监控指标。

可观测指标

指标类型粒度支持维度
GPU 使用率1分钟聚合暂仅支持集群
显存使用率1分钟聚合暂仅支持集群
可用卡数实时状态暂仅支持集群
空闲卡数实时状态暂仅支持集群

时间范围

  • 默认显示:最近1小时
  • 最大回溯:30天(需注意历史数据精度衰减)
  • 自定义时间窗口:支持任意时间段组合查询

已知限制

  • 暂无节点级监控。
  • 暂无 Pod 级监控。无法查看具体容器的 GPU 资源消耗(如单个训练任务的显存占用)。

Kubelet 的 监控 API

暂不支持 Kubelet 的 /stats/summary

集群内的 prometheus

开启集群监控后AI 容器服务平台会在集群内部署监控服务。

shell
% kubectl get deployments -n monitoring
NAME                                  READY   UP-TO-DATE   AVAILABLE   AGE
prometheus-kube-prometheus-operator   1/1     1            1           160m
prometheus-kube-state-metrics         1/1     1            1           160m

% kubectl get pods -n monitoring
NAME                                                   READY   STATUS    RESTARTS   AGE
prometheus-kube-prometheus-operator-586c7b58bd-d4xkn   1/1     Running   0          30m
prometheus-kube-state-metrics-d4fb5dfdc-9s5qb          1/1     Running   0          30m
prometheus-prometheus-kube-prometheus-prometheus-0     2/2     Running   0          30m

WARNING

请勿删除非用户自行创建的监控相关资源(如 Prometheus 相关对象),否则可能导致 AI 容器服务集群的监控功能不可用。

您可以为业务服务创建 servicemonitor。servicemonitor 对象必须加上 label.release. prometheus,代表由集群内的 prometheus 实例采集指标。

yaml
apiVersion: monitoring.coreos.com/v1
kind: ServiceMonitor
metadata:
  labels:
    release: prometheus
  name: qwen
  namespace: default
spec:
  endpoints:
  - honorLabels: false
    interval: 15s
    path: /metrics
    port: metrics
    relabelings: []
  namespaceSelector:
    matchNames:
    - default
  selector:
    matchLabels:
      app: qwen-1-5

NOTE

暂无法支持在 AI 容器服务平台网页端直接查看自定义采集的数据。如有需要,请联系技术支持。