任务资源与事件监控
AIStudio 平台为任务提供了详细的资源监控指标,可查看任务整体和各个 Worker 的资源使用情况,和任务生命周期中的所有时间。
任务监控
在任务列表页或任务详情页,您可以点击任务监控,来查看以下监控指标。
监控指标 | 描述 |
---|---|
显卡使用率 | 任务所有 worker 的整体显卡使用率 |
显卡显存使用率 | 任务所有 worker 的整体显卡显存使用率 |
CPU 使用率 | 任务所有 worker 的整体 CPU 使用率 |
内存使用率 | 任务所有 worker 的整体内存使用率 |
worker 监控
在任务详情页,您可以点击 worker 监控,来查看以下监控指标。
监控指标 | 描述 |
---|---|
GPU 功率监控 | 指定 worker 的显卡功率(w),该指标仅支持 Nvidia 显卡 |
Tensor Core 使用率监控 | 指定 worker 的 Tensor Core 使用率,该指标仅支持 Nvidia 显卡 |
显卡使用率 | 指定 worker 的显卡使用率 |
显卡显存使用率 | 指定 worker 的显卡显存使用率 |
CPU 使用率 | 指定 worker 的 CPU 使用百分比 |
内存使用率 | 指定 worker 的内存使用百分比 |
磁盘读取数据量 | 指定 worker 的磁盘读取数据量(MB) |
磁盘写入数据量 | 指定 worker 的磁盘写入数据量(MB) |
网络接收数据量 | 指定 worker 的网络接收数据量(MB) |
网络发送数据量 | 指定 worker 的网络发送数据量(MB) |
RDMA 接收数据量 | 指定 worker 的 RDMA 接收数据量(MB) |
RDMA 发送数据量 | 指定 worker 的 RDMA 发送数据量(MB) |
文件存储写入数据量 | 指定 worker 的文件存储写入数据量(MB) |
文件存储读取数据量 | 指定 worker 的文件存储读取数据量(MB) |
事件监控
智算云平台会记录任务在生命周期中的所有事件,有两种查看方式:
访问详情页面,在页面顶部点击查看事件。
访问详情页面,点击「事件记录」标签页,用于展示负载操作事件,包括事件 ID、事件名称、操作者用户名、事件发生时间等,支持筛选,方便用户追踪自己或他人对当前负载的操作记录。事件记录只保留 30 天。
智算云平台已支持对任务生命周期内的事件发送飞书通知。详见配置飞书告警通知。