GenStudio 全新上架 ComfyUI 工作流托管服务GenStudio 全新上架 ComfyUI 工作流托管服务 ,已适配主流 ckpt 模型与节点了解更多
Skip to content

关键概念

这里介绍在 AIStudio 中所提到的一些重要的概念。

开发机

开发机可以简单理解为一个挂载了 GPU 的 Linux 开发环境。创建开发机时,需要指定开发机的算力规格(CPU、内存、GPU)、选择镜像(可以理解为预装的 OS、开发环境和依赖项)、按需挂载共享高性能存储等。

开发机可用于训练代码的开发和调试,单机训练、也可以用于测试模型推理和部署。

  • 参考创建开发机
  • 支持从本地 SSH 连接到开发机,也支持在平台预置的 Web Terminal 中使用开发机,具体方法详见 SSH

任务

为了提高易用性和便捷性,AIStudio 支持从网页发起训练任务。您可以通过直观的用户界面进行操作,无需深入掌握复杂的命令行工具或编程环境。

在开发完代码需要进行训练时,可以通过网页界面分配计算资源,挂载共享存储获取代码、模型、数据,快速调整参数。

除了单机任务外,AIStudio 还支持一键发起大规模分布式训练(PyTorchDDP 和 MPI),并提供资源监控、自动容错、实时的训练日志和可视化等功能。

Worker

在训练任务中,「Worker」 是一个核心概念。在 AIStudio 的「任务」中,一个 Worker 通常指负责执行计算任务的最小计算单元(一个容器实例)。

在 AIStudio 创建任务时,需要指定 Worker 的数量以及单个 Worker 需要占用的算力规格,包括 CPU、内存和 GPU 型号和 GPU 数量。

推理服务

AIStudio 的推理服务,可快速便捷地将训练好的模型部署成线上服务,接入实际业务场景。

在服务运行过程中,可以通过 AIStudio 平台了解服务的健康情况,包括资源监控、业务指标监控、实例日志等。

根据服务的实时状况,用户可以按需选择对服务实例数进行扩缩容,或者通过升级功能变更服务的代码、推理框架、模型等。

实例

在推理服务中,实例通常指承载执行推理任务的最小计算单元(一个容器实例)。

在 AIStudio 创建任务时,需要指定实例数量以及单个实例需要占用的算力规格,包括 CPU、内存和 GPU 型号和 GPU 数量。

算力规格

算力规格定义了在 AIStudio 中运行容器实例的资源多少。目前 AIStudio 中仅提供 GPU 算力规格。

GPU 算力规格一般包含 1/2/4/8 个 GPU,可以利用深度学习框架的 GPU 版本加速深度学习模型的训练和推理。每种算力规格都提供了 CPU 核数和内存的上限。容器运行过程中一旦超过上限会导致任务的失败。

算力规格产品模块中名称略有区别。在创建开发机、任务、推理服务时,分别需要指定「规格」「Worker 规格」「实例规格」。

NOTE

AIStudio 一般按 GPU 型号和 GPU 数量定义算力规格。每种 GPU 类型均提供 1、2、4、8 卡四种规格,配备固定的 CPU 核数和内存上限。AIStudio 仅支持按预定义的规格创建容器,不支持自由定义算力规格。

例如: 您的租户的算力资源为 NVIDIA A100 80G 显存 * 8,则表示该租户获得了使用 8 个 NVIDIA A100 的配额,可创建 8 个包含 1 个 GPU 的开发机。

镜像

镜像,指容器镜像,是一个用于创建和运行算力容器的模板,其中包含了运行算力容器所必要的环境和依赖,例如代码、运行时、库、环境变量、和配置文件等。

目前 AIStudio 提供了 PyTorch 官方镜像、NGC 官方镜像、CUDA 社区镜像、Ubuntu 基础镜像等,也支持用户构建自己的镜像。

更多内容请见镜像中心

共享高性能存储

在机器学习流程中,通常模型、数据集的规模都比较庞大,每次运行都重复上传代码和数据非常不现实。您可以使用购买共享高性能存储,用于持久化保存和复用数据。

开发机、任务的 Worker、推理实例均可挂载共享高性能存储,让您轻松地与团队成员共享文件,并在大数据量情况下高效地进行协作。

更多内容请见共享高性能存储

资源规格

资源规格用于描述租户购买的计算资源配额。

例如,如果您的租户向无问芯穹下单购买了 2 份以下资源规格:

  • 资源规格编码:g6l.111xlarge
  • 显卡型号 NVIDIA RTX4090-24G PCIe
  • 显卡数量 8
  • vCPU 核数 112
  • 内存 896GB

那么,您的租户获得了使用最多同时使用 16 个 NVIDIA RTX4090 的配额。

  • 如果使用 1卡的算力规格创建开发机,最多可同时创建并运行 16 台包含 1 个 GPU 的开发机。每台开发机的 GPU 核数为 14、内存为 112GB。
  • 如果使用 8卡算力规格创建任务,最多可同时创建并运行 2 个包含 8 个 GPU 的开发机。
  • 创建推理服务时,如果1卡的算力规格,使用 16 个实例,最多可同时运行 1 个推理服务。

您可以在资源池页面查看租户购买的算力资源配额、规格。

alt text

资源池

AIStudio 采用了「可用区」和「资源池」的概念组合,帮助租户管理云上的计算资源。

更多内容请见资源池