集群监控

AI 容器服务集群支持采集和展示监控数据，可以通过时间段筛选 GPU 使用率等指标。

网页端监控

本节描述集群详情页面会显示「监控」标签页的使用方法。

开启监控

如果创建集群时已选择开启监控，集群详情页面会显示「监控」标签页。您也可以按以下步骤，为集群启动监控功能。

登录 AI 容器服务平台，在左侧导航栏选择集群。
AI 容器服务平台
在集群页面的操作列，单击目标集群，或在操作栏点击详情，进入集群详情页面。
点击详情页底部的监控开关。

网页端监控指标

在集群「监控」标签页，可查看监控指标。

可观测指标

指标类型	粒度	支持维度
GPU 使用率	1分钟聚合	暂仅支持集群
显存使用率	1分钟聚合	暂仅支持集群
可用卡数	实时状态	暂仅支持集群
空闲卡数	实时状态	暂仅支持集群

时间范围

默认显示：最近1小时
最大回溯：30天（需注意历史数据精度衰减）
自定义时间窗口：支持任意时间段组合查询

已知限制

暂无节点级监控。
暂无 Pod 级监控。无法查看具体容器的 GPU 资源消耗（如单个训练任务的显存占用）。

Kubelet 的监控 API

暂不支持 Kubelet 的 /stats/summary。

集群内的 prometheus

开启集群监控后AI 容器服务平台会在集群内部署监控服务。

shell

% kubectl get deployments -n monitoring
NAME                                  READY   UP-TO-DATE   AVAILABLE   AGE
prometheus-kube-prometheus-operator   1/1     1            1           160m
prometheus-kube-state-metrics         1/1     1            1           160m

% kubectl get pods -n monitoring
NAME                                                   READY   STATUS    RESTARTS   AGE
prometheus-kube-prometheus-operator-586c7b58bd-d4xkn   1/1     Running   0          30m
prometheus-kube-state-metrics-d4fb5dfdc-9s5qb          1/1     Running   0          30m
prometheus-prometheus-kube-prometheus-prometheus-0     2/2     Running   0          30m

警告

请勿删除非用户自行创建的监控相关资源（如 Prometheus 相关对象），否则可能导致 AI 容器服务集群的监控功能不可用。

您可以为业务服务创建 servicemonitor。servicemonitor 对象必须加上 label.release. prometheus，代表由集群内的 prometheus 实例采集指标。

yaml

apiVersion: monitoring.coreos.com/v1
kind: ServiceMonitor
metadata:
  labels:
    release: prometheus
  name: qwen
  namespace: default
spec:
  endpoints:
  - honorLabels: false
    interval: 15s
    path: /metrics
    port: metrics
    relabelings: []
  namespaceSelector:
    matchNames:
    - default
  selector:
    matchLabels:
      app: qwen-1-5

注意

暂无法支持在 AI 容器服务平台网页端直接查看自定义采集的数据。如有需要，请联系技术支持。

产品简介

访问 AICoder

传输文件

账号与权限

凭证管理

费用中心

通知中心

算力资源池管理

高性能存储管理

镜像中心

开发机

训练任务

推理部署

存储服务

企业服务

极值算力

AI 容器服务平台

预置模型

大语言模型 API

向量嵌入与重排序

计费与支持

ComfyUI 工作流托管

API 调用

监控与计费

产品简介

使用指南

集群监控

网页端监控

开启监控

网页端监控指标

可观测指标

时间范围

已知限制

Kubelet 的监控 API

集群内的 prometheus

集群监控 ​

网页端监控 ​

开启监控 ​

网页端监控指标 ​

可观测指标 ​

时间范围 ​

已知限制 ​

Kubelet 的 监控 API ​

集群内的 prometheus ​

集群监控

网页端监控

开启监控

网页端监控指标

可观测指标

时间范围

已知限制

Kubelet 的监控 API

集群内的 prometheus