开发机资源与事件监控
AIStudio 平台支持监控开发机的显卡、CPU、内存资源使用情况和开发机在生命周期中的所有事件。
计算资源监控
如需查看开发机的计算资源指标,可在开发机列表页点击监控。或在进入开发机详情页后,切换到监控标签页,选择显卡监控。

| 监控指标 | 描述 |
|---|---|
| GPU 功率监控 | 开发机的显卡功率(w),该指标仅支持 Nvidia 显卡 |
| 显卡使用率 | 开发机的显卡使用率 |
| 显卡显存使用率 | 开发机的显卡显存使用率 |
| CPU 使用率 | 开发机的 CPU 使用率 |
| 内存使用率 | 开发机的内存使用率 |
CPU 可用性与绑核指南
本节汇总了在开发机中与 CPU 可用性和绑核相关的实践:如何获取可用 CPU(MIZAR_CPUSET)、如何用 taskset 绑核、如何验证绑定结果,以及为何不要依赖 /proc/cpuinfo 的 processor 值进行绑核。
获取可用 CPU(MIZAR_CPUSET)
开发机运行在 K8s 平台上,平台会为系统组件与调度器保留部分物理核。因此,并非所有宿主机 CPU 核心都对当前实例可见或可用。
您可以在实例内通过查看以 MIZAR_CPUSET 开头的环境变量来确认可用 CPU 集合:
cat /etc/environment | grep MIZAR_CPUSET常见输出示例:
MIZAR_CPUSET_GPUS=GPU-31037487-fa06-aefa-a087-ed265db405f6=0-7,64-69
MIZAR_CPUSET_NUMA_0=0-7,64-69
MIZAR_CPUSET=0-7,64-69解释:
MIZAR_CPUSET:当前实例可用的 CPU 编号集合(如0-7,64-69)。MIZAR_CPUSET_NUMA_*:按 NUMA 节点划分的可用 CPU 集合。MIZAR_CPUSET_GPUS:当绑定了 GPU 时,显示对应 GPU 与其首选 CPU 集合。
使用 taskset 绑核
当您使用 taskset -c 为进程指定 CPU 列表时,请务必基于实例的可用集合(MIZAR_CPUSET)。
- 若
-c中的所有 CPU 都不在容器的可用集合内,命令会失败(常见报错:Invalid argument)。 - 若
-c中只有部分 CPU 在可用集合内,进程可以启动,但仅会在与开发机容器 cpuset 的交集上运行,超出集合的 CPU 会被忽略。
示例(假设 MIZAR_CPUSET=0-7,64-69):
# 完全在可用集合内 —— 正常运行
taskset -c 0-7,64-69 python app.py
# 部分在集合内(0-3 有效,90-93 无效)—— 可以启动,但仅绑定到 0-3
taskset -c 0-3,90-93 python app.py
# 与集合无交集 —— 报错(例如 Invalid argument)
taskset -c 90-93 python app.py提示
先通过 cat /etc/environment | grep MIZAR_CPUSET 获取可用 CPU 集合,再使用 taskset 进行绑核。
验证绑核结果
启动后可用以下方式校验绑定结果(任选其一或同时使用):
# 查看进程当前 cpuset 掩码/列表
taskset -p <pid>
# 查看进程允许的 CPU 列表(更直观)
grep Cpus_allowed_list /proc/<pid>/status警告
在开发机内不支持通过 docker run 使用 --cpuset-cpus 参数进一步限制 CPU,即不支持在 Docker 子容器中再次限制 CPU。CPU 的可用性与限制以平台注入的 MIZAR_CPUSET 为准。
/proc/cpuinfo 的 processor 编号说明
容器环境中,/proc/cpuinfo 的 processor 编号由 lxcfs 顺序映射生成,用于提升兼容性(许多应用假设 processor 连续)。这不是宿主机真实的 CPU ID,也不等同于容器真实可用的 cpuset 列表。
结论:
- 不要使用
/proc/cpuinfo的processor值进行绑核或亲和性设置。 - 如需获取真实可用 CPU,请以
MIZAR_CPUSET(及其 NUMA 拆分变量)为准。
存储资源监控
在开发机列表页点击监控,或在进入开发机详情页后,切换到监控标签页,可浏览存储监控指标。
开发机的存储监控分为两部分:
- 存储监控:指系统盘(rootfs)
- 文件系统监控:指挂载的高性能文件存储
您可以通过存储监控指标直观地排查系统盘(rootfs)写满、存储读写性能异常等常见问题。
| 监控指标 | 描述 |
|---|---|
| 磁盘用量 | 系统盘(rootfs)的容量占用情况。 |
| 磁盘读数据量 | 在单位时间内对系统盘的读取数据量,单位 MiB。 |
| 磁盘写数据量 | 表示在单位时间内对系统盘写的数据量,单位 MiB |
| 文件存储读速度 | 该负载挂载共享存储,在运行期间读带宽监控,单位 MiB/s |
| 文件存储写速度 | 该负载挂载共享存储,在运行期间写带宽监控,单位 MiB/s |
| 文件存储读IOPS | 该负载挂载共享存储,在运行期间单位时间内读取文件次数,单位 次/s |
| 文件存储写IOPS | 该负载挂载共享存储,在运行期间单位时间内写入文件次数,单位 次/s |
| 文件存储读时延 | 发起读取文件到完成操作的时间(平均),单位为 ms |
| 文件存储写时延 | 发起写入文件到完成操作的时间(平均),单位为 ms |
事件监控
智算云平台会记录开发机在生命周期中的所有事件,有两种查看方式:
访问详情页面,在页面顶部点击查看事件。

访问详情页面,点击「事件记录」标签页,用于展示负载操作事件,包括事件 ID、事件名称、操作者用户名、事件发生时间等,支持筛选,方便用户追踪自己或他人对当前负载的操作记录。事件记录只保留 30 天。