资源监控
AIStudio 平台为任务提供了详细的资源监控指标,可查看任务整体的资源使用情况,也可以查看任务中各个 Worker 的详细指标。
任务监控
在任务列表页或任务详情页,您可以点击任务监控,来查看以下监控指标。
监控指标 | 描述 |
---|---|
显卡使用率 | 任务所有 worker 的整体显卡使用率 |
显卡显存使用率 | 任务所有 worker 的整体显卡显存使用率 |
CPU 使用率 | 任务所有 worker 的整体 CPU 使用率 |
内存使用率 | 任务所有 worker 的整体内存使用率 |
worker 监控
在任务详情页,您可以点击 worker 监控,来查看以下监控指标。
监控指标 | 描述 |
---|---|
GPU 功率监控 | 指定 worker 的显卡功率(w),该指标仅支持 Nvidia 显卡 |
Tensor Core 使用率监控 | 指定 worker 的 Tensor Core 使用率,该指标仅支持 Nvidia 显卡 |
显卡使用率 | 指定 worker 的显卡使用率 |
显卡显存使用率 | 指定 worker 的显卡显存使用率 |
CPU 使用率 | 指定 worker 的 CPU 使用百分比 |
内存使用率 | 指定 worker 的内存使用百分比 |
磁盘读取数据量 | 指定 worker 的磁盘读取数据量(MB) |
磁盘写入数据量 | 指定 worker 的磁盘写入数据量(MB) |
网络接收数据量 | 指定 worker 的网络接收数据量(MB) |
网络发送数据量 | 指定 worker 的网络发送数据量(MB) |
RDMA 接收数据量 | 指定 worker 的 RDMA 接收数据量(MB) |
RDMA 发送数据量 | 指定 worker 的 RDMA 发送数据量(MB) |
文件存储写入数据量 | 指定 worker 的文件存储写入数据量(MB) |
文件存储读取数据量 | 指定 worker 的文件存储读取数据量(MB) |