资源统计
本文将带您深入了解 AIStudio 资源统计页面,帮助您全面了解计算资源的利用情况。
您将学习以下内容:
- 查看 GPU 和节点的分布与使用情况。
- 监控资源池的使用率,识别瓶颈。
- 统计团队成员的资源占用和真实使用情况。
本文主要适用于租户管理员,以及租户内被授权查看资源使用情况的用户。
集群可用区统计
集群可用区是租户购买的全部包年包月计算资源所部署的区域,当前一个可用区对应一个计算资源集群。
「集群可用区统计」提供「显卡分布」、「资源节点分布」两个统计视图,在左上角可切换。
显卡分布
可用区分布图:展示租户下所有集群可用区的显卡分布情况饼图。例如,租户所有可用区总卡数为 248,其中江苏 A 共 8 卡,占租户总显卡数量的百分比为 3.23%。
可用区总卡数使用情况:展示租户下所有可用区集群的显卡占用情况饼图。
- 服务已用:指当前正在运行的开发机、任务、推理服务所分配的显卡数量。包括开发机、任务、推理服务,所占用的显卡数量。服务完全停止后,则释放所占用的显卡资源。
- 服务未用:空闲显卡数量。
- 不可用:显卡需维护、升级等,不可用于任何服务。
- 集群占用:在 AI 容器服务平台创建虚拟集群所占用的显卡数量。被集群占用后,不可再用于一站式 AI 平台(AIStudio)的开发机/推理服务/任务。
卡数占用详情:分别展示各个可用区的显卡总数、已用数量和未用数量。
资源节点分布
「资源节点」指租户根据指定规格购买的 GPU 计算资源节点。一般情况下,一个 GPU 计算节点含 8 个 GPU。
可用区分布图:显示了租户下所有集群可用区的资源节点分布情况,例如,总节点数 31,江苏 A 共 1 台资源节点,占比 3.23%。
可用区总节点使用情况:显示了租户所有节点已用、节点空闲、节点不可用的数量。
- 节点已用:已被用户使用的节点。
- 节点空闲:未被用户使用的节点。
- 节点不可用:节点需维护、升级等,不可用于任何服务
节点占用详情:不同可用区中资源节点的使用情况。例如,江苏 A 可用区的计算资源规格是
NVIDIA A100-40G PCIe * 8
,共 1 个节点,已被用户使用 1 个节点,空闲 0 个节点。
资源池统计
「资源池统计」模块统计的资源池类别为包年包月资源池(默认),及其用户自行创建的专属资源池、共享资源池。
该统计模块包括资源池分布、卡数占用详情两部分。
资源池分布图:展示租户下显卡在所有资源池中的分布情况饼图。例如,租户所有资源池总卡数为 248,其中“包年包月资源池-江苏 A” 资源池中有 8 卡,占租户总显卡数量的百分比为 3.23%。
卡数占用详情:分别展示各个资源池的显卡总数、已用数量和未用数量。默认展示全部资源池,支持按类别筛选出「包年包月资源池」、「专属资源池等」。点击单个资源池可展示该资源池中详细的 GPU 使用视图。
- 已用:指当前正在运行的开发机、任务、推理服务所分配的显卡数量。包括开发机、任务、推理服务,所占用的显卡数量。服务完全停止后,则释放所占用的显卡资源。
- 未用:空闲的显卡数量。
- 集群占用:在 AI 容器服务平台创建虚拟集群所占用的显卡数量。被集群占用后,不可再用于一站式 AI 平台(AIStudio)的开发机/推理服务/任务。
资源池占用情况视图
如果资源池类别为「包年包月(默认)」、「专属」,点击资源池卡片,可展示详细的 GPU 资源占用情况视图。该视图中按照规格(例如 NVIDIA A100-40G PCIe
)展示资源池内所有计算资源节点,以及已用卡数和未用(空闲)卡数。
如需进一步了解某个计算资源节点已用显卡资源的用途,可点击该节点,查看节点上运行的负载详情。详情列表包括以下字段:
- 负载名称/ ID:租户下创建的负载名称与平台分配的ID。
- 负载类型:负载服务的类型,包括开发机、训练任务、数据处理任务、训练服务、推理服务。
- 占用显卡数:负载服务占用的显卡数量。
- 创建者:负载服务的创建者。
- 创建时间:负载服务的创建时间。
NOTE
「共享资源池」、「复用资源」不支持查看资源占用情况。
资源监控
资源监控模块为您提供对资源真实使用情况的实时监测,帮助您识别资源浪费、性能瓶颈、优化资源分配、并及时调整资源使用策略。
在「资源监控」区域,选择资源池,分别切换「使用率」、「分配率」、「资源节点数量」,可查询租户下不同资源池的资源使用的动态变化情况,支持通过资源池类别、时间范围进行筛选。
使用率折线图
「使用率」折线图统计的是从运行中的负载中采集的使用率百分比,包括显卡使用率、显存使用率、CPU 使用率、内存使用率。您可以根据这些数据判断资源是否被充分利用。
分配率折线图 「分配率」折线图统计的是运行中的负载所分配的资源规格之和占资源总量百分比,包括显卡分配率、显存分配率、CPU 分配率、内存分配率。分配率图表显示已分配资源之和占资源总量百分比。使用率反映了资源的实际使用情况。监控两者可以帮助您判断资源是否存在未被充分利用的情况(例如,运行中的 8 卡开发机长期仅使用 1 卡)。
资源节点数量折线图 「资源节点数量」折线图统计的是资源节点数量分布情况,包括在线数量、已用数量、空闲数量、不可用数量。「资源节点数量」监控视图支持导出 CSV 格式文件。
NOTE
默认情况下,资源监控仅管理员可以查看租户全部资源池的监控。如果非管理员用户需要查看租户的资源池监控,请为非管理员配置资源池监控权限。
人员使用统计
人员使用统计模块帮助您统计团队或组织内各个用户对 GPU 资源的使用情况。
NOTE
暂仅包含开发机和任务统计数据,未统计推理服务和共享资源池的相关数据。
当前使用情况
当前使用情况列表展示了租户下全部用户占用的显卡数量情况,包含以下字段:
- 用户名:例如,zhangsan。
- 用户 ID:ac-c7kwupe7qvn55i33。
- 开发机使用卡数:用户当前状态为部署中、运行中、关机中、清理中、删除中的开发机所占用的显卡数量。
- 任务使用卡数:用户当前状态为部署中、运行中、清理中、停止中、删除中、恢复中的任务所占用的显卡数量。
- 使用总卡数:开发机使用卡数、任务使用卡数的总和。
累计使用情况
累计使用情况列表展示了租户下全部用户当前累计使用的显卡时长,默认展示本周的数据,支持通过时间范围进行筛选。
累计使用情况列表包含以下字段:
- 用户名:例如,zhangsan。
- 用户 ID:ac-c7kwupe7qvn55i33。
- 开发机使用卡时:用户当前状态为部署中、运行中、关机中、清理中、删除中的开发机所占用的显卡使用时长。
- 任务使用卡时:用户当前状态为部署中、运行中、清理中、停止中、删除中、恢复中的任务所占用的显卡使用时长。
- 使用总卡时:开发机使用卡时、任务使用卡时的总和。
NOTE
人员使用统计仅支持 2024-11-15 11:00 之后的数据,每小时刷新 1 次,不包含推理服务和共享资源池的占用卡数、卡时。
常见问题
数据多久更新一次?
刷新页面即可查看最新数据。
为什么显卡显示为“不可用”?
“不可用”显卡通常是因为资源需要维护、升级或出现硬件故障,暂时无法用于服务(如开发机、任务、推理服务)。
您可以联系管理员或平台寻求技术支持。若需紧急使用资源,可切换到其他可用区或资源池。
如何查看某个资源池的具体占用情况?
对于「共享资源池」、「复用资源」,不支持查看具体占用情况。
对于「包年包月资源池(默认)」、「专属资源池」,可通过以下步骤查看具体占用情况:
- 进入“资源池统计”模块,找到目标资源池的卡片。
- 点击卡片查看“资源占用情况”,包括计算资源规格和使用详情。
- 点击每台计算资源的“使用详情”,查看负载名称、类型、占用显卡数、创建者等信息。
为什么资源监控数据没有显示?
默认情况下,仅超级管理员可以查看租户全部资源池的监控数据。
非管理员用户缺少相应资源池监控的权限,可联系超级管理员配置资源池监控权限。更多平台资源池权限说明,请参见资源池权限。
累计使用情况的时间范围可以自定义吗?
累计使用情况支持通过时间范围筛选,但仅支持 2024-11-15 11:00 之后的数据,且数据每小时刷新一次。
如何导出资源节点数量数据?
- 在页面上找到“资源监控”区域,在选择“资源池”后,再切换到“资源节点数量”指标,可看到导出按钮。
- 点击图表上方的“导出”按钮,系统将自动下载文件,文件名为“【资源池名称】-【资源节点数量】-【开始时间】-【结束时间】.csv”。
什么是“集群占用”显卡?为什么不能用于 AIStudio 服务?
集群占用显卡是指被 AI 容器服务平台占用的资源,AI 容器服务平台和一站式 AI 平台(AIStudio)是两个不同的平台。