任务资源与事件监控
AIStudio 平台为任务提供了详细的资源监控指标,可查看任务整体和各个 Worker 的资源使用情况,和任务生命周期中的所有时间。

任务监控
在任务列表页或任务详情页,您可以点击任务监控,来查看以下监控指标。
任务显卡监控指标
| 任务显卡监控指标 | 描述 |
|---|---|
| 显卡使用率 | 任务所有 worker 的整体显卡使用率 |
| 显卡显存使用率 | 任务所有 worker 的整体显卡显存使用率 |
| CPU 使用率 | 任务所有 worker 的整体 CPU 使用率 |
| 内存使用率 | 任务所有 worker 的整体内存使用率 |
任务存储资源监控指标
任务的存储监控由 Worker 级别存储监控指标聚合产生,分为两部分:
- 存储监控:指系统盘(rootfs)
- 文件系统监控:指挂载的高性能文件存储
您可以通过存储监控指标直观地排查任务系统盘(rootfs)写满、存储读写性能异常等常见问题。
| 任务监控指标 | 描述 |
|---|---|
| 磁盘用量 | 系统盘(rootfs)的容量占用情况。 |
| 磁盘读数据量 | 在单位时间内对系统盘的读取数据量,单位 MiB。 |
| 磁盘写数据量 | 表示在单位时间内对系统盘写的数据量,单位 MiB |
| 文件存储读速度 | 该负载挂载共享存储,在运行期间读带宽监控,单位 MiB/s |
| 文件存储写速度 | 该负载挂载共享存储,在运行期间写带宽监控,单位 MiB/s |
| 文件存储读IOPS | 该负载挂载共享存储,在运行期间单位时间内读取文件次数,单位 次/s |
| 文件存储写IOPS | 该负载挂载共享存储,在运行期间单位时间内写入文件次数,单位 次/s |
| 文件存储读时延 | 发起读取文件到完成操作的时间(平均),单位为 ms |
| 文件存储写时延 | 发起写入文件到完成操作的时间(平均),单位为 ms |
任务 worker 监控
在任务详情页,您可以点击 worker 监控,来查看以下监控指标。
任务 worker 显卡监控指标
| 任务 Worker 显卡监控指标 | 描述 |
|---|---|
| GPU 功率监控 | 指定 worker 的显卡功率(w),该指标仅支持 Nvidia 显卡 |
| Tensor Core 使用率监控 | 指定 worker 的 Tensor Core 使用率,该指标仅支持 Nvidia 显卡 |
| 显卡使用率 | 指定 worker 的显卡使用率 |
| 显卡显存使用率 | 指定 worker 的显卡显存使用率 |
| CPU 使用率 | 指定 worker 的 CPU 使用百分比 |
| 内存使用率 | 指定 worker 的内存使用百分比 |
任务 worker 网络监控指标
| 任务 Worker 网络监控指标 | 描述 |
|---|---|
| RDMA 接收数据量 | 指定 worker 的 RDMA 接收数据量(MB) |
| RDMA 发送数据量 | 指定 worker 的 RDMA 发送数据量(MB) |
| 网络接收数据量 | 指定 worker 的网络接收数据量(MB) |
| 网络发送数据量 | 指定 worker 的网络发送数据量(MB) |
任务 worker 存储监控指标
任务 Worker 级别存储监控指标分为两部分:
- 存储监控:指系统盘(rootfs)
- 文件系统监控:指挂载的高性能文件存储
| 任务 Worker 存储监控指标 | 描述 |
|---|---|
| 磁盘读取数据量 | 指定 worker 的系统盘内读取数据量(MiB) |
| 磁盘写入数据量 | 指定 worker 的系统盘写入数据量(MiB) |
| 文件存储写入数据量 | 指定 worker 对指定文件存储的写入数据量(MiB) |
| 文件存储读取数据量 | 指定 worker 对指定文件存储的读取数据量(MiB) |
事件监控
智算云平台会记录任务在生命周期中的所有事件,有两种查看方式:
访问详情页面,在页面顶部点击查看事件。
访问详情页面,点击「事件记录」标签页,用于展示负载操作事件,包括事件 ID、事件名称、操作者用户名、事件发生时间等,支持筛选,方便用户追踪自己或他人对当前负载的操作记录。事件记录只保留 30 天。
智算云平台已支持对任务生命周期内的事件发送飞书通知。详见配置飞书告警通知。