在 AIStudio 镜像中心使用 Dockerfile 自助构建最新版 vLLM 镜像在 AIStudio 镜像中心使用 Dockerfile 自助构建最新版 vLLM 镜像 ,无需访问 DockerHub立即构建
Skip to content

任务资源与事件监控

本页面介绍任务详情中的三个重要监控功能。

  • 任务监控:查看任务整体的 GPU、CPU、内存、存储等资源使用情况,从全局视角了解任务的资源消耗趋势
  • Worker 监控:查看各个 Worker 的资源使用分布,包括 GPU 功率、Tensor Core 使用率、网络流量等详细指标,便于定位单个节点的性能瓶颈
  • 事件记录:追踪任务生命周期中的所有操作事件,记录事件发生时间、操作者等信息,支持飞书告警通知

任务监控

在任务列表页或任务详情页,您可以点击任务监控,访问*任务监控**标签页。

alt text

任务显卡监控指标

任务显卡监控指标描述
显卡使用率任务所有 worker 的整体显卡使用率
显卡显存使用率任务所有 worker 的整体显卡显存使用率
CPU 使用率任务所有 worker 的整体 CPU 使用率
内存使用率任务所有 worker 的整体内存使用率

任务存储资源监控指标

任务的存储监控由 Worker 级别存储监控指标聚合产生,分为两部分:

  • 存储监控:指系统盘(rootfs)
  • 文件系统监控:指挂载的高性能文件存储

您可以通过存储监控指标直观地排查任务系统盘(rootfs)写满、存储读写性能异常等常见问题。

任务监控指标描述
磁盘用量系统盘(rootfs)的容量占用情况。
磁盘读数据量在单位时间内对系统盘的读取数据量,单位 MiB。
磁盘写数据量表示在单位时间内对系统盘写的数据量,单位 MiB
文件存储读速度该负载挂载共享存储,在运行期间读带宽监控,单位 MiB/s
文件存储写速度该负载挂载共享存储,在运行期间写带宽监控,单位 MiB/s
文件存储读IOPS该负载挂载共享存储,在运行期间单位时间内读取文件次数,单位 次/s
文件存储写IOPS该负载挂载共享存储,在运行期间单位时间内写入文件次数,单位 次/s
文件存储读时延发起读取文件到完成操作的时间(平均),单位为 ms
文件存储写时延发起写入文件到完成操作的时间(平均),单位为 ms

任务 worker 监控

在任务详情页,您可以直接点击访问 Worker 监控标签页。

alt text

任务 worker 显卡监控指标

任务 Worker 显卡监控指标描述
GPU 功率监控指定 worker 的显卡功率(w),该指标仅支持 Nvidia 显卡
Tensor Core 使用率监控指定 worker 的 Tensor Core 使用率,该指标仅支持 Nvidia 显卡
显卡使用率指定 worker 的显卡使用率
显卡显存使用率指定 worker 的显卡显存使用率
CPU 使用率指定 worker 的 CPU 使用百分比
内存使用率指定 worker 的内存使用百分比

任务 worker 网络监控指标

任务 Worker 网络监控指标描述
RDMA 接收数据量指定 worker 的 RDMA 接收数据量(MB)
RDMA 发送数据量指定 worker 的 RDMA 发送数据量(MB)
网络接收数据量指定 worker 的网络接收数据量(MB)
网络发送数据量指定 worker 的网络发送数据量(MB)

任务 worker 存储监控指标

任务 Worker 级别存储监控指标分为两部分:

  • 存储监控:指系统盘(rootfs)
  • 文件系统监控:指挂载的高性能文件存储
任务 Worker 存储监控指标描述
磁盘读取数据量指定 worker 的系统盘内读取数据量(MiB)
磁盘写入数据量指定 worker 的系统盘写入数据量(MiB)
文件存储写入数据量指定 worker 对指定文件存储的写入数据量(MiB)
文件存储读取数据量指定 worker 对指定文件存储的读取数据量(MiB)

事件监控

智算云平台会记录任务在生命周期中的所有事件,有两种查看方式:

  • 访问详情页面,在页面顶部点击查看事件

  • 访问详情页面,点击「事件记录」标签页,用于展示负载操作事件,包括事件 ID、事件名称、操作者用户名、事件发生时间等,支持筛选,方便用户追踪自己或他人对当前负载的操作记录。事件记录只保留 30 天。

alt text

智算云平台已支持对任务生命周期内的事件发送飞书通知。详见配置飞书告警通知

任务告警监控

当任务运行过程中遇到节点异常时,系统会自动记录告警信息。您可以在任务列表、任务详情和 Worker 信息列表中看到节点异常提示,也可以查看完整的告警历史记录。

提示

当任务所在的物理节点出现异常时,您可以查看任务告警了解详细的告警历史记录,包括告警触发时间、受影响的 Worker、告警解除时间等信息。