GenStudio 于 2025 年 5 月 推出 GenStudio 高级版/企业版升级服务,大幅提升 API 调用频率GenStudio 于 2025 年 5 月 推出 GenStudio 高级版/企业版升级服务,大幅提升 API 调用频率 ,依然保留免费基础服务了解计费
Skip to content

任务资源与事件监控

AIStudio 平台为任务提供了详细的资源监控指标,可查看任务整体和各个 Worker 的资源使用情况,和任务生命周期中的所有时间。

alt text

任务监控

在任务列表页或任务详情页,您可以点击任务监控,来查看以下监控指标。

监控指标描述
显卡使用率任务所有 worker 的整体显卡使用率
显卡显存使用率任务所有 worker 的整体显卡显存使用率
CPU 使用率任务所有 worker 的整体 CPU 使用率
内存使用率任务所有 worker 的整体内存使用率

worker 监控

在任务详情页,您可以点击 worker 监控,来查看以下监控指标。

监控指标描述
GPU 功率监控指定 worker 的显卡功率(w),该指标仅支持 Nvidia 显卡
Tensor Core 使用率监控指定 worker 的 Tensor Core 使用率,该指标仅支持 Nvidia 显卡
显卡使用率指定 worker 的显卡使用率
显卡显存使用率指定 worker 的显卡显存使用率
CPU 使用率指定 worker 的 CPU 使用百分比
内存使用率指定 worker 的内存使用百分比
磁盘读取数据量指定 worker 的磁盘读取数据量(MB)
磁盘写入数据量指定 worker 的磁盘写入数据量(MB)
网络接收数据量指定 worker 的网络接收数据量(MB)
网络发送数据量指定 worker 的网络发送数据量(MB)
RDMA 接收数据量指定 worker 的 RDMA 接收数据量(MB)
RDMA 发送数据量指定 worker 的 RDMA 发送数据量(MB)
文件存储写入数据量指定 worker 的文件存储写入数据量(MB)
文件存储读取数据量指定 worker 的文件存储读取数据量(MB)

事件监控

智算云平台会记录任务在生命周期中的所有事件,有两种查看方式:

  • 访问详情页面,在页面顶部点击查看事件

  • 访问详情页面,点击「事件记录」标签页,用于展示负载操作事件,包括事件 ID、事件名称、操作者用户名、事件发生时间等,支持筛选,方便用户追踪自己或他人对当前负载的操作记录。事件记录只保留 30 天。

智算云平台已支持对任务生命周期内的事件发送飞书通知。详见配置飞书告警通知