GPU 使用视图与工作负载队列管理
智算云平台的 GPU 使用视图与工作负载队列管理,可为 AI/ML 工作负载的资源分配提供更高的透明度和灵活性,帮助您更高效地管理 GPU 资源,优化工作负载的运行效率。
功能概述
AI/ML 工作负载通常对 GPU 资源有特定的需求,例如:
- 某些工作负载要求在一组节点上运行,每节点必须提供 8个空闲GPU,而非在多个节点上分散的 GPU 资源。
- 某些工作负载需要单个节点提供完整的 8 个空闲GPU,而非通过多个节点拼凑出 8 个GPU。
如果资源有限,资源池使用率经常处于高位,团队成员之间可能会存在资源竞争。建议您在启动服务前检查资源占用情况。为了满足这些需求,智算云平台提供占用情况与负载排队情况视图。
占用情况
GPU 占用情况为用户提供资源池中 GPU 占用的实时视图,提供以下便利:
资源透明化: 您可以通过直观的界面,实时查看资源池中各节点的 GPU 使用情况,包括:
- 每个节点的总 GPU 数量和空闲 GPU 数量。
- 当前正在运行的工作负载及其 GPU 占用详情。
灵活决策: 根据 GPU 占用情况的提供的信息,您可以:
- 调整工作负载的 GPU 需求,以适应当前可用的资源。
- 选择将工作负载加入队列,等待合适的 GPU 资源释放。
高效调度:通过清晰的资源分配信息,您可以避免因 GPU 资源不符合需求而导致的调度失败,从而提升工作负载的运行效率。
工作负载队列管理
为满足不同 GPU 需求和优先级的工作负载,平台支持优先级调度功能,具有以下特点:
- 优先级管理 超级管理员可以管理负载队列,将高优负载拖入「优先调度队列」,优先满足高优先级实例请求,确保关键任务优先获得 GPU 资源。
- 灵活调度 非高优先级的负载默认采用灵活调度方式,根据当前释放的可用资源优先满足最匹配 GPU 资源要求的负载,优化资源分配效率。
使用流程
查看占用情况与负载排队情况
登录智算云平台,创建开发机、任务、或推理服务。
选定包年包月资源池后,可看到占用情况与负载排队情况两个视图入口。
占用情况:点击查看当前资源占用明细,提前判断是否满足多卡实例启动需求。例如,如果当前资源池中的资源每个节点均被占用了 1 卡,则无法创建 8 卡规格的实例。
负载排队情况:点击查看当前资源池的排队状态。如果当前资源池中没有空闲资源,新的实例请求将进入排队等待状态。
NOTE
- 队列中包含当前选中资源池中全部排队中的负载(开发机、推理、任务)。
- 「优先调度队列」中的负载严格按照顺序进行调度。优先调度队列清空后才会调度「默认调度队列」中的负载。
- 「默认调度队列」中的负载非严格按照顺序进行,而是优先调度当前空闲可用卡数与负载需求相匹配的实例请求。例如,当资源池中出现一个空闲的 8 卡资源节点时,系统会优先调度队列中第一个申请 8卡的负载。
- 仅租户管理员可调整负载队列。
根据视图信息,决定是否调整工作负载的GPU需求,或将任务加入队列等待调度。
提交工作负载,平台将根据用户选择智能分配 GPU 资源。
调整负载队列
超级管理员可以通过管理负载排队情况,优先满足高优先级的负载请求。
- 进入创建开发机/任务/推理服务页面,选择需要管理调度顺序的资源池。
- 拖拽待管理的负载请求到优先调度队列。
NOTE
- 仅租户管理员可调整负载队列。
- 暂仅支持在创建开发机/任务/推理服务页面进入负载排队情况视图管理队列,未提供其他独立管理页。
资源相关问题的应对方案
当遇到资源竞争或资源不足的情况时,可以考虑以下解决方案:
使用专属资源池
- 如果您所在团队对资源有稳定且大量的需求,建议创建专属资源池
- 专属资源池可以有效隔离资源使用,避免与其他团队产生资源竞争
- 注意:专属资源池来自于租户购买的预付费资源(包天/包周/包月)资源,需自行创建
优化资源使用时间
- 选择负载较低的时间段启动服务
- 通过查看"负载排队情况",避开资源使用高峰期
- 服务不使用时及时释放资源
临时解决方案
- 如遇到资源紧张,可与团队沟通从同一可用区的其他资源池临时移入空闲资源
- 寻找其他可用区的资源池(注意:专属/共享资源池不可跨可用区)
- 必要时可请求其他团队暂时释放闲置资源
NOTE
- 建议在申请专属资源池时,根据历史使用数据评估所需资源量
- 资源调整(移入/移出)操作建议在负载较低时进行
- 如需关闭他人的开发机以释放资源,请提前与相关人员沟通,并确保重要数据已保存至共享存储