GPU 使用视图与工作负载队列管理

智算云平台的 GPU 使用视图与工作负载队列管理，可为 AI/ML 工作负载的资源分配提供更高的透明度和灵活性，帮助您更高效地管理 GPU 资源，优化工作负载的运行效率。

功能概述

AI/ML 工作负载通常对 GPU 资源有特定的需求，例如：

如果资源有限，资源池使用率经常处于高位，团队成员之间可能会存在资源竞争。建议您在启动服务前检查资源占用情况。为了满足这些需求，智算云平台提供占用情况与负载排队情况视图。

GPU 占用情况为用户提供资源池中 GPU 占用的实时视图，提供以下便利：

资源透明化：您可以通过直观的界面，实时查看资源池中各节点的 GPU 使用情况，包括：
- 每个节点的总 GPU 数量和空闲 GPU 数量。
- 当前正在运行的工作负载及其 GPU 占用详情。
灵活决策：根据 GPU 占用情况的提供的信息，您可以：
- 调整工作负载的 GPU 需求，以适应当前可用的资源。
- 选择将工作负载加入队列，等待合适的 GPU 资源释放。
高效调度：通过清晰的资源分配信息，您可以避免因 GPU 资源不符合需求而导致的调度失败，从而提升工作负载的运行效率。

为满足不同 GPU 需求和优先级的工作负载，平台支持优先级调度功能，具有以下特点：

超级管理员可以通过管理负载排队情况，优先满足高优先级的负载请求。

注意

当遇到资源竞争或资源不足的情况时，可以考虑以下解决方案：

使用专属资源池
- 如果您所在团队对资源有稳定且大量的需求，建议创建专属资源池
- 专属资源池可以有效隔离资源使用，避免与其他团队产生资源竞争
- 注意：专属资源池来自于租户购买的预付费资源（包天/包周/包月）资源，需自行创建
优化资源使用时间
- 选择负载较低的时间段启动服务
- 通过查看"负载排队情况"，避开资源使用高峰期
- 服务不使用时及时释放资源
临时解决方案
- 如遇到资源紧张，可与团队沟通从同一可用区的其他资源池临时移入空闲资源
- 寻找其他可用区的资源池（注意：专属/共享资源池不可跨可用区）
- 必要时可请求其他团队暂时释放闲置资源

注意