GenStudio LLM API 部分模型价格调整公告GenStudio LLM API 部分模型价格调整公告 ,新价格 2025 年 11 月 1 日生效调价公告
Skip to content

任务资源与事件监控

AIStudio 平台为任务提供了详细的资源监控指标,可查看任务整体和各个 Worker 的资源使用情况,和任务生命周期中的所有时间。

alt text

任务监控

在任务列表页或任务详情页,您可以点击任务监控,来查看以下监控指标。

任务显卡监控指标

任务显卡监控指标描述
显卡使用率任务所有 worker 的整体显卡使用率
显卡显存使用率任务所有 worker 的整体显卡显存使用率
CPU 使用率任务所有 worker 的整体 CPU 使用率
内存使用率任务所有 worker 的整体内存使用率

任务存储资源监控指标

任务的存储监控由 Worker 级别存储监控指标聚合产生,分为两部分:

  • 存储监控:指系统盘(rootfs)
  • 文件系统监控:指挂载的高性能文件存储

您可以通过存储监控指标直观地排查任务系统盘(rootfs)写满、存储读写性能异常等常见问题。

任务监控指标描述
磁盘用量系统盘(rootfs)的容量占用情况。
磁盘读数据量在单位时间内对系统盘的读取数据量,单位 MiB。
磁盘写数据量表示在单位时间内对系统盘写的数据量,单位 MiB
文件存储读速度该负载挂载共享存储,在运行期间读带宽监控,单位 MiB/s
文件存储写速度该负载挂载共享存储,在运行期间写带宽监控,单位 MiB/s
文件存储读IOPS该负载挂载共享存储,在运行期间单位时间内读取文件次数,单位 次/s
文件存储写IOPS该负载挂载共享存储,在运行期间单位时间内写入文件次数,单位 次/s
文件存储读时延发起读取文件到完成操作的时间(平均),单位为 ms
文件存储写时延发起写入文件到完成操作的时间(平均),单位为 ms

任务 worker 监控

在任务详情页,您可以点击 worker 监控,来查看以下监控指标。

任务 worker 显卡监控指标

任务 Worker 显卡监控指标描述
GPU 功率监控指定 worker 的显卡功率(w),该指标仅支持 Nvidia 显卡
Tensor Core 使用率监控指定 worker 的 Tensor Core 使用率,该指标仅支持 Nvidia 显卡
显卡使用率指定 worker 的显卡使用率
显卡显存使用率指定 worker 的显卡显存使用率
CPU 使用率指定 worker 的 CPU 使用百分比
内存使用率指定 worker 的内存使用百分比

任务 worker 网络监控指标

任务 Worker 网络监控指标描述
RDMA 接收数据量指定 worker 的 RDMA 接收数据量(MB)
RDMA 发送数据量指定 worker 的 RDMA 发送数据量(MB)
网络接收数据量指定 worker 的网络接收数据量(MB)
网络发送数据量指定 worker 的网络发送数据量(MB)

任务 worker 存储监控指标

任务 Worker 级别存储监控指标分为两部分:

  • 存储监控:指系统盘(rootfs)
  • 文件系统监控:指挂载的高性能文件存储
任务 Worker 存储监控指标描述
磁盘读取数据量指定 worker 的系统盘内读取数据量(MiB)
磁盘写入数据量指定 worker 的系统盘写入数据量(MiB)
文件存储写入数据量指定 worker 对指定文件存储的写入数据量(MiB)
文件存储读取数据量指定 worker 对指定文件存储的读取数据量(MiB)

事件监控

智算云平台会记录任务在生命周期中的所有事件,有两种查看方式:

  • 访问详情页面,在页面顶部点击查看事件

  • 访问详情页面,点击「事件记录」标签页,用于展示负载操作事件,包括事件 ID、事件名称、操作者用户名、事件发生时间等,支持筛选,方便用户追踪自己或他人对当前负载的操作记录。事件记录只保留 30 天。

智算云平台已支持对任务生命周期内的事件发送飞书通知。详见配置飞书告警通知