GenStudio 预计于 2025 年 5 月 推出 GenStudio 高级版/企业版升级服务,可付费调用预置 LLM API,GenStudio 预计于 2025 年 5 月 推出 GenStudio 高级版/企业版升级服务,可付费调用预置 LLM API, ,大幅提升 API 调用频率查看预告
Skip to content

关键概念

这里介绍在 AIStudio 中所提到的一些重要的概念。

开发机

开发机可以简单理解为一个挂载了 GPU 的 Linux 开发环境。创建开发机时,需要指定开发机的算力规格(CPU、内存、GPU)、选择镜像(可以理解为预装的 OS、开发环境和依赖项)、按需挂载共享高性能存储等。

开发机可用于训练代码的开发和调试,单机训练、也可以用于测试模型推理和部署。

  • 参考创建开发机
  • 支持从本地 SSH 连接到开发机,也支持在平台预置的 Web Terminal 中使用开发机,具体方法详见 SSH

任务

为了提高易用性和便捷性,AIStudio 支持从网页发起训练任务。您可以通过直观的用户界面进行操作,无需深入掌握复杂的命令行工具或编程环境。

在开发完代码需要进行训练时,可以通过网页界面分配计算资源,挂载共享存储获取代码、模型、数据,快速调整参数。

除了单机任务外,AIStudio 还支持一键发起大规模分布式训练(PyTorchDDP 和 MPI),并提供资源监控、自动容错、实时的训练日志和可视化等功能。

Worker

在训练任务中,「Worker」 是一个核心概念。在 AIStudio 的「任务」中,一个 Worker 通常指负责执行计算任务的最小计算单元(一个容器实例)。

在 AIStudio 创建任务时,需要指定 Worker 的数量以及单个 Worker 需要占用的算力规格,包括 CPU、内存和 GPU 型号和 GPU 数量。

推理服务

AIStudio 的推理服务,可快速便捷地将训练好的模型部署成线上服务,接入实际业务场景。

在服务运行过程中,可以通过 AIStudio 平台了解服务的健康情况,包括资源监控、业务指标监控、实例日志等。

根据服务的实时状况,用户可以按需选择对服务实例数进行扩缩容,或者通过升级功能变更服务的代码、推理框架、模型等。

实例

在推理服务中,实例通常指承载执行推理任务的最小计算单元(一个容器实例)。

在 AIStudio 创建任务时,需要指定实例数量以及单个实例需要占用的算力规格,包括 CPU、内存和 GPU 型号和 GPU 数量。

算力规格

算力规格定义了在 AIStudio 中运行容器实例的资源多少。目前 AIStudio 中仅提供 GPU 算力规格。

GPU 算力规格一般包含 1/2/4/8 个 GPU,可以利用深度学习框架的 GPU 版本加速深度学习模型的训练和推理。每种算力规格都提供了 CPU 核数和内存的上限。容器运行过程中一旦超过上限会导致任务的失败。

算力规格产品模块中名称略有区别。在创建开发机、任务、推理服务时,分别需要指定「规格」「Worker 规格」「实例规格」。

注意

AIStudio 一般按 GPU 型号和 GPU 数量定义算力规格。每种 GPU 类型均提供 1、2、4、8 卡四种规格,配备固定的 CPU 核数和内存上限。AIStudio 仅支持按预定义的规格创建容器,不支持自由定义算力规格。

例如: 您的租户的算力资源为 NVIDIA A100 80G 显存 * 8,则表示该租户获得了使用 8 个 NVIDIA A100 的配额,可创建 8 个包含 1 个 GPU 的开发机。

镜像

指容器镜像,是一个用于创建和运行算力容器的模板,其中包含了运行算力容器所必要的环境和依赖,例如代码、运行时、库、环境变量、和配置文件等。

目前 AIStudio 提供了 PyTorch 官方镜像、NGC 官方镜像、CUDA 社区镜像、Ubuntu 基础镜像等,也支持用户构建自己的镜像。

更多内容请见镜像中心

共享高性能存储

在机器学习流程中,通常模型、数据集的规模都比较庞大,每次运行都重复上传代码和数据非常不现实。您可以使用购买共享高性能存储,用于持久化保存和复用数据。

开发机、任务的 Worker、推理实例均可挂载共享高性能存储,让您轻松地与团队成员共享文件,并在大数据量情况下高效地进行协作。

更多内容请见共享高性能存储

文件系统

在一站式 AI 平台的高性能存储中,「文件系统」特指共享高性能存储中为租户分配的隔离的存储空间。

  • 文件系统的大小决定了租户可用存储空间的上限(暂不支持展示大小)。
  • 文件系统的可用区决定了存储可被挂载和使用的可用区,只有同一可用区实例(开发机、任务、推理服务、AICoder)可使用该文件系统提供的存储资源。
  • 文件系统不可直接被实例挂载使用。
  • 文件系统可用于创建存储卷。存储卷可被同一可用区实例(开发机、任务、推理服务、AICoder)挂载。

存储卷

在一站式 AI 平台的高性能存储中,「存储卷」指可被可用区实例(开发机、任务、推理服务、AICoder)挂载的存储单元。

存储卷有以下关键属性:

  • 存储卷 ID: 用于识别存储卷,例如 vo-c7hp65uszhr7hb7x

  • 存储卷目录路径:在文件系统中,使用该路径划分存储卷使用的存储空间。例如,路径为 /public,表示使用该存储卷时限制操作在该文件系统 /public 目录下的数据。

    注意

    • 在创建实例(开发机、任务、推理服务、AICoder)时,平台以存储卷 ID 与目录路径的组合来表示存储卷。例如: 您会在存储下拉列表中看到存储卷名称为 /datasets(vo-c7hp65utvgohcz2k)
    • 存储卷的目录路径仅表示其在文件系统上的位置,与实例容器内的访问目录无关。在挂载存储卷时,您可以将存储卷映射至容器内部的自定义路径。
  • 存储卷挂载权限:用于控制不同用户/用户组对存储卷可见性以及读写权限。如果用户对存储卷的权限与该用户所在用户组对存储卷的权限不同,则取并集。

资源规格

资源规格用于描述租户购买的计算资源配额。

例如,如果您的租户向无问芯穹下单购买了 2 份以下资源规格:

  • 资源规格编码:g6l.111xlarge
  • 显卡型号 NVIDIA RTX4090-24G PCIe
  • 显卡数量 8
  • vCPU 核数 112
  • 内存 896GB

那么,您的租户获得了使用最多同时使用 16 个 NVIDIA RTX4090 的配额。

  • 如果使用 1卡的算力规格创建开发机,最多可同时创建并运行 16 台包含 1 个 GPU 的开发机。每台开发机的 GPU 核数为 14、内存为 112GB。
  • 如果使用 8卡算力规格创建任务,最多可同时创建并运行 2 个包含 8 个 GPU 的开发机。
  • 创建推理服务时,如果1卡的算力规格,使用 16 个实例,最多可同时运行 1 个推理服务。

您可以在资源池页面查看租户购买的算力资源配额、规格。

alt text

资源池

AIStudio 采用了「可用区」和「资源池」的概念组合,帮助租户管理云上的计算资源。

更多内容请见资源池