Skip to content

资源监控

AIStudio 平台为任务提供了详细的资源监控指标,可查看任务整体的资源使用情况,也可以查看任务中各个 Worker 的详细指标。

alt text

任务监控

在任务列表页或任务详情页,您可以点击任务监控,来查看以下监控指标。

监控指标描述
显卡使用率任务所有 worker 的整体显卡使用率
显卡显存使用率任务所有 worker 的整体显卡显存使用率
CPU 使用率任务所有 worker 的整体 CPU 使用率
内存使用率任务所有 worker 的整体内存使用率

worker 监控

在任务详情页,您可以点击 worker 监控,来查看以下监控指标。

监控指标描述
显卡功率监控指定 worker 的显卡功率(w),该指标仅支持 Nvidia 显卡
显卡使用率指定 worker 的显卡使用率
显卡显存使用率指定 worker 的显卡显存使用率
CPU 使用率指定 worker 的 CPU 使用百分比
内存使用率指定 worker 的内存使用百分比
磁盘读取数据量指定 worker 的磁盘读取数据量(MB)
磁盘写入数据量指定 worker 的磁盘写入数据量(MB)
网络接收数据量指定 worker 的网络接收数据量(MB)
网络发送数据量指定 worker 的网络发送数据量(MB)
RDMA 接收数据量指定 worker 的 RDMA 接收数据量(MB)
RDMA 发送数据量指定 worker 的 RDMA 发送数据量(MB)
文件存储写入数据量指定 worker 的文件存储写入数据量(MB)
文件存储读取数据量指定 worker 的文件存储读取数据量(MB)