GenStudio LLM API 部分模型价格调整公告GenStudio LLM API 部分模型价格调整公告 ,新价格 2025 年 11 月 1 日生效调价公告
Skip to content

开发机资源与事件监控

AIStudio 平台支持监控开发机的显卡、CPU、内存资源使用情况和开发机在生命周期中的所有事件。

计算资源监控

如需查看开发机的计算资源指标,可在开发机列表页点击监控。或在进入开发机详情页后,切换到监控标签页,选择显卡监控

alt text

监控指标描述
GPU 功率监控开发机的显卡功率(w),该指标仅支持 Nvidia 显卡
显卡使用率开发机的显卡使用率
显卡显存使用率开发机的显卡显存使用率
CPU 使用率开发机的 CPU 使用率
内存使用率开发机的内存使用率

CPU 可用性与绑核指南

本节汇总了在开发机中与 CPU 可用性和绑核相关的实践:如何获取可用 CPU(MIZAR_CPUSET)、如何用 taskset 绑核、如何验证绑定结果,以及为何不要依赖 /proc/cpuinfo 的 processor 值进行绑核。

获取可用 CPU(MIZAR_CPUSET)

开发机运行在 K8s 平台上,平台会为系统组件与调度器保留部分物理核。因此,并非所有宿主机 CPU 核心都对当前实例可见或可用。

您可以在实例内通过查看以 MIZAR_CPUSET 开头的环境变量来确认可用 CPU 集合:

bash
cat /etc/environment | grep MIZAR_CPUSET

常见输出示例:

MIZAR_CPUSET_GPUS=GPU-31037487-fa06-aefa-a087-ed265db405f6=0-7,64-69
MIZAR_CPUSET_NUMA_0=0-7,64-69
MIZAR_CPUSET=0-7,64-69

解释:

  • MIZAR_CPUSET:当前实例可用的 CPU 编号集合(如 0-7,64-69)。
  • MIZAR_CPUSET_NUMA_*:按 NUMA 节点划分的可用 CPU 集合。
  • MIZAR_CPUSET_GPUS:当绑定了 GPU 时,显示对应 GPU 与其首选 CPU 集合。

使用 taskset 绑核

当您使用 taskset -c 为进程指定 CPU 列表时,请务必基于实例的可用集合(MIZAR_CPUSET)。

  • -c 中的所有 CPU 都不在容器的可用集合内,命令会失败(常见报错:Invalid argument)。
  • -c 中只有部分 CPU 在可用集合内,进程可以启动,但仅会在与开发机容器 cpuset 的交集上运行,超出集合的 CPU 会被忽略。

示例(假设 MIZAR_CPUSET=0-7,64-69):

bash
# 完全在可用集合内 —— 正常运行
taskset -c 0-7,64-69 python app.py

# 部分在集合内(0-3 有效,90-93 无效)—— 可以启动,但仅绑定到 0-3
taskset -c 0-3,90-93 python app.py

# 与集合无交集 —— 报错(例如 Invalid argument)
taskset -c 90-93 python app.py

提示

先通过 cat /etc/environment | grep MIZAR_CPUSET 获取可用 CPU 集合,再使用 taskset 进行绑核。

验证绑核结果

启动后可用以下方式校验绑定结果(任选其一或同时使用):

bash
# 查看进程当前 cpuset 掩码/列表
taskset -p <pid>

# 查看进程允许的 CPU 列表(更直观)
grep Cpus_allowed_list /proc/<pid>/status

警告

在开发机内不支持通过 docker run 使用 --cpuset-cpus 参数进一步限制 CPU,即不支持在 Docker 子容器中再次限制 CPU。CPU 的可用性与限制以平台注入的 MIZAR_CPUSET 为准。

/proc/cpuinfo 的 processor 编号说明

容器环境中,/proc/cpuinfoprocessor 编号由 lxcfs 顺序映射生成,用于提升兼容性(许多应用假设 processor 连续)。这不是宿主机真实的 CPU ID,也不等同于容器真实可用的 cpuset 列表。

结论:

  • 不要使用 /proc/cpuinfoprocessor 值进行绑核或亲和性设置。
  • 如需获取真实可用 CPU,请以 MIZAR_CPUSET(及其 NUMA 拆分变量)为准。

存储资源监控

在开发机列表页点击监控,或在进入开发机详情页后,切换到监控标签页,可浏览存储监控指标。

开发机的存储监控分为两部分:

  • 存储监控:指系统盘(rootfs)
  • 文件系统监控:指挂载的高性能文件存储

您可以通过存储监控指标直观地排查系统盘(rootfs)写满、存储读写性能异常等常见问题。

监控指标描述
磁盘用量系统盘(rootfs)的容量占用情况。
磁盘读数据量在单位时间内对系统盘的读取数据量,单位 MiB。
磁盘写数据量表示在单位时间内对系统盘写的数据量,单位 MiB
文件存储读速度该负载挂载共享存储,在运行期间读带宽监控,单位 MiB/s
文件存储写速度该负载挂载共享存储,在运行期间写带宽监控,单位 MiB/s
文件存储读IOPS该负载挂载共享存储,在运行期间单位时间内读取文件次数,单位 次/s
文件存储写IOPS该负载挂载共享存储,在运行期间单位时间内写入文件次数,单位 次/s
文件存储读时延发起读取文件到完成操作的时间(平均),单位为 ms
文件存储写时延发起写入文件到完成操作的时间(平均),单位为 ms

事件监控

智算云平台会记录开发机在生命周期中的所有事件,有两种查看方式:

  • 访问详情页面,在页面顶部点击查看事件

    alt text

  • 访问详情页面,点击「事件记录」标签页,用于展示负载操作事件,包括事件 ID、事件名称、操作者用户名、事件发生时间等,支持筛选,方便用户追踪自己或他人对当前负载的操作记录。事件记录只保留 30 天。