GenStudio 预计于 2025 年 5 月 推出 GenStudio 高级版/企业版升级服务,可付费调用预置 LLM API,GenStudio 预计于 2025 年 5 月 推出 GenStudio 高级版/企业版升级服务,可付费调用预置 LLM API, ,大幅提升 API 调用频率查看预告
Skip to content

GPU 使用视图与工作负载队列管理

智算云平台的 GPU 使用视图与工作负载队列管理,可为 AI/ML 工作负载的资源分配提供更高的透明度和灵活性,帮助您更高效地管理 GPU 资源,优化工作负载的运行效率。

功能概述

AI/ML 工作负载通常对 GPU 资源有特定的需求,例如:

  • 某些工作负载要求在一组节点上运行,每节点必须提供 8个空闲GPU,而非在多个节点上分散的 GPU 资源。
  • 某些工作负载需要单个节点提供完整的 8 个空闲GPU,而非通过多个节点拼凑出 8 个GPU。

如果资源有限,资源池使用率经常处于高位,团队成员之间可能会存在资源竞争。建议您在启动服务前检查资源占用情况。为了满足这些需求,智算云平台提供占用情况负载排队情况视图。

占用情况

GPU 占用情况为用户提供资源池中 GPU 占用的实时视图,提供以下便利:

  1. 资源透明化: 您可以通过直观的界面,实时查看资源池中各节点的 GPU 使用情况,包括:

    • 每个节点的总 GPU 数量和空闲 GPU 数量。
    • 当前正在运行的工作负载及其 GPU 占用详情。
  2. 灵活决策: 根据 GPU 占用情况的提供的信息,您可以:

    • 调整工作负载的 GPU 需求,以适应当前可用的资源。
    • 选择将工作负载加入队列,等待合适的 GPU 资源释放。
  3. 高效调度:通过清晰的资源分配信息,您可以避免因 GPU 资源不符合需求而导致的调度失败,从而提升工作负载的运行效率。

工作负载队列管理

为满足不同 GPU 需求和优先级的工作负载,平台支持优先级调度功能,具有以下特点:

  • 优先级管理 超级管理员可以管理负载队列,将高优负载拖入「优先调度队列」,优先满足高优先级实例请求,确保关键任务优先获得 GPU 资源。
  • 灵活调度 非高优先级的负载默认采用灵活调度方式,根据当前释放的可用资源优先满足最匹配 GPU 资源要求的负载,优化资源分配效率。

使用流程

查看占用情况与负载排队情况

  1. 登录智算云平台,创建开发机、任务、或推理服务。

  2. 选定包年包月资源池后,可看到占用情况负载排队情况两个视图入口。

    • 占用情况:点击查看当前资源占用明细,提前判断是否满足多卡实例启动需求。例如,如果当前资源池中的资源每个节点均被占用了 1 卡,则无法创建 8 卡规格的实例。

      alt text

    • 负载排队情况:点击查看当前资源池的排队状态。如果当前资源池中没有空闲资源,新的实例请求将进入排队等待状态。

      alt text

      NOTE

      • 队列中包含当前选中资源池中全部排队中的负载(开发机、推理、任务)。
      • 「优先调度队列」中的负载严格按照顺序进行调度。优先调度队列清空后才会调度「默认调度队列」中的负载。
      • 「默认调度队列」中的负载非严格按照顺序进行,而是优先调度当前空闲可用卡数与负载需求相匹配的实例请求。例如,当资源池中出现一个空闲的 8 卡资源节点时,系统会优先调度队列中第一个申请 8卡的负载。
      • 仅租户管理员可调整负载队列。
  3. 根据视图信息,决定是否调整工作负载的GPU需求,或将任务加入队列等待调度。

  4. 提交工作负载,平台将根据用户选择智能分配 GPU 资源。

调整负载队列

超级管理员可以通过管理负载排队情况,优先满足高优先级的负载请求。

  1. 进入创建开发机/任务/推理服务页面,选择需要管理调度顺序的资源池。
  2. 拖拽待管理的负载请求到优先调度队列

NOTE

  • 仅租户管理员可调整负载队列。
  • 暂仅支持在创建开发机/任务/推理服务页面进入负载排队情况视图管理队列,未提供其他独立管理页。

资源相关问题的应对方案

当遇到资源竞争或资源不足的情况时,可以考虑以下解决方案:

  • 使用专属资源池

    • 如果您所在团队对资源有稳定且大量的需求,建议创建专属资源池
    • 专属资源池可以有效隔离资源使用,避免与其他团队产生资源竞争
    • 注意:专属资源池来自于租户购买的预付费资源(包天/包周/包月)资源,需自行创建
  • 优化资源使用时间

    • 选择负载较低的时间段启动服务
    • 通过查看"负载排队情况",避开资源使用高峰期
    • 服务不使用时及时释放资源
  • 临时解决方案

    • 如遇到资源紧张,可与团队沟通从同一可用区的其他资源池临时移入空闲资源
    • 寻找其他可用区的资源池(注意:专属/共享资源池不可跨可用区)
    • 必要时可请求其他团队暂时释放闲置资源

NOTE

  • 建议在申请专属资源池时,根据历史使用数据评估所需资源量
  • 资源调整(移入/移出)操作建议在负载较低时进行
  • 如需关闭他人的开发机以释放资源,请提前与相关人员沟通,并确保重要数据已保存至共享存储