关键概念
这里介绍在 AIStudio 中所提到的一些重要的概念。
算力市场
算力市场是智算云平台提供的一个灵活的计算资源租赁平台,用户可以根据实际需求按需购买和使用各种类型的算力资源。
在算力市场中,用户可以:
- 按需购买:根据项目需求选择合适的 GPU 型号、数量和使用时长
- 灵活计费:支持按小时、按天或包月等多种计费模式
- 资源多样化:提供从入门级到高端的各种 GPU 规格,满足不同场景的计算需求
- 即时可用:短期项目、实验验证、突发性计算需求场景下,可快速获取和释放计算资源,无需长期承诺
- 长期租赁:长期项目、稳定运行的场景下,可通过包月购买方式长期租用算力,获得更优惠的价格。
算力市场让用户能够更经济高效地使用 AI 计算资源,可在 AIStudio 开发机、任务(训练任务)、推理服务中使用。
开发机
开发机可以简单理解为一个挂载了 GPU 的 Linux 开发环境。创建开发机时,需要指定开发机的算力规格(CPU、内存、GPU)、选择镜像(可以理解为预装的 OS、开发环境和依赖项)、按需挂载共享高性能存储等。
开发机可用于训练代码的开发和调试,单机训练、也可以用于测试模型推理和部署。
- 参考创建开发机
- 支持从本地 SSH 连接到开发机,也支持在平台预置的 Web Terminal 中使用开发机,具体方法详见 SSH。
- 资源池可配置闲时自动关机规则,帮助优化资源利用。详见开发机闲时自动关机。
Docker 容器服务(开发机内)
在 AIStudio 开发机内,您可以启用 Docker 容器服务来运行容器、拉取镜像、构建镜像等,方便在同一台开发机中管理依赖与服务组件。
重要
不要与「AI 容器服务(KubeStudio)」混淆。
- Docker 容器服务(开发机内):指开发机内部的 Docker 服务能力。
- AI 容器服务(KubeStudio):指独立的 AI 容器服务平台,运行虚拟集群并占用资源池 GPU。
- 参考 Docker in Docker
- 参考 自定义容器镜像
任务
为了提高易用性和便捷性,AIStudio 支持从网页发起训练任务。您可以通过直观的用户界面进行操作,无需深入掌握复杂的命令行工具或编程环境。
在开发完代码需要进行训练时,可以通过网页界面分配计算资源,挂载共享存储获取代码、模型、数据,快速调整参数。
除了单机任务外,AIStudio 还支持一键发起大规模分布式训练(PyTorchDDP 和 MPI),并提供资源监控、自动容错、实时的训练日志和可视化等功能。
Worker
在训练任务中,「Worker」 是一个核心概念。在 AIStudio 的「任务」中,一个 Worker 通常指负责执行计算任务的最小计算单元(一个容器实例)。
在 AIStudio 创建任务时,需要指定 Worker 的数量以及单个 Worker 需要占用的算力规格,包括 CPU、内存和 GPU 型号和 GPU 数量。
推理服务
AIStudio 的推理服务,可快速便捷地将训练好的模型部署成线上服务,接入实际业务场景。
在服务运行过程中,可以通过 AIStudio 平台了解服务的健康情况,包括资源监控、业务指标监控、实例日志等。
根据服务的实时状况,用户可以按需选择对服务实例数进行扩缩容,或者通过升级功能变更服务的代码、推理框架、模型等。
实例
在推理服务中,实例通常指承载执行推理任务的最小计算单元(一个容器实例)。
在 AIStudio 创建任务时,需要指定实例数量以及单个实例需要占用的算力规格,包括 CPU、内存和 GPU 型号和 GPU 数量。
算力规格
算力规格定义了在 AIStudio 中运行容器实例的资源多少。目前 AIStudio 中仅提供 GPU 算力规格。
GPU 算力规格一般包含 1/2/4/8 个 GPU,可以利用深度学习框架的 GPU 版本加速深度学习模型的训练和推理。每种算力规格都提供了 CPU 核数和内存的上限。容器运行过程中一旦超过上限会导致任务的失败。
算力规格产品模块中名称略有区别。在创建开发机、任务、推理服务时,分别需要指定「规格」「Worker 规格」「实例规格」。
资源节点是算力资源的载体,算力规格则是对节点资源的逻辑划分。
注意
AIStudio 一般按 GPU 型号和 GPU 数量定义算力规格。每种 GPU 类型均提供 1、2、4、8 卡四种规格,配备固定的 CPU 核数和内存上限。AIStudio 仅支持按预定义的规格创建容器,不支持自由定义算力规格。
例如: 您的租户的算力资源为 NVIDIA A100 80G 显存 * 8,则表示该租户获得了使用 8 个 NVIDIA A100 的配额,可创建 8 个包含 1 个 GPU 的开发机。
镜像
指容器镜像,是一个用于创建和运行算力容器的模板,其中包含了运行算力容器所必要的环境和依赖,例如代码、运行时、库、环境变量、和配置文件等。
目前 AIStudio 提供了 PyTorch 官方镜像、NGC 官方镜像、CUDA 社区镜像、Ubuntu 基础镜像等,也支持用户构建自己的镜像。
- 预置镜像:平台提供的官方/社区镜像,开箱即用。
- 自定义镜像:用户自行导入或构建的镜像,可固化团队依赖与运行环境。
- 构建镜像 / 构建自定义镜像:通过 Dockerfile 或在开发机环境中构建镜像,并推送到镜像仓库后供创建实例使用。
- 镜像仓库:镜像存储与分发服务(Registry 概念),用于保存、拉取、推送镜像。
- 镜像中心:平台内的镜像管理入口(浏览、导入、构建、权限等)。
更多内容请见镜像中心。
共享高性能存储
共享高性能存储是智算云平台平台提供的通用存储服务。在机器学习流程中,通常模型、数据集的规模都比较庞大,每次运行都重复上传代码和数据非常不现实。您可以使用购买共享高性能存储,作为 AIStudio 容器实例的扩展存储,用于持久化保存和复用数据。
开发机、任务的 Worker、推理实例均可挂载共享高性能存储,让您轻松地与团队成员共享文件,并在大数据量情况下高效地进行协作。
更多内容请见共享高性能存储。
文件系统
「文件系统」特指共享高性能存储中为租户分配的隔离的存储空间。
- 文件系统的大小决定了租户可用存储空间的上限(暂不支持展示大小)。
- 文件系统的可用区决定了存储可被挂载和使用的可用区,只有同一可用区实例(开发机、任务、推理服务、AICoder)可使用该文件系统提供的存储资源。
- 文件系统不可直接被实例挂载使用。拥有文件系统后,租户可自主创建存储卷。存储卷可被同一可用区实例(开发机、任务、推理服务、AICoder)挂载。
存储卷
在共享高性能存储中,「存储卷」指可被可用区实例(开发机、任务、推理服务、AICoder)挂载的存储单元。
存储卷有以下关键属性:
存储卷 ID: 用于识别存储卷,例如
vo-c7hp65uszhr7hb7x存储卷目录路径:在文件系统中,使用该路径划分存储卷使用的存储空间。例如,路径为
/public,表示使用该存储卷时限制操作在该文件系统/public目录下的数据。注意
- 在创建实例(开发机、任务、推理服务、AICoder)时,平台以存储卷 ID 与目录路径的组合来表示存储卷。例如: 您会在存储下拉列表中看到存储卷名称为
/datasets(vo-c7hp65utvgohcz2k)。 - 存储卷的目录路径仅表示其在文件系统上的位置,与实例容器内的访问目录无关。在挂载存储卷时,您可以将存储卷映射至容器内部的自定义路径。
- 在创建实例(开发机、任务、推理服务、AICoder)时,平台以存储卷 ID 与目录路径的组合来表示存储卷。例如: 您会在存储下拉列表中看到存储卷名称为
存储卷挂载权限:用于控制不同用户/用户组对存储卷可见性以及读写权限。如果用户对存储卷的权限与该用户所在用户组对存储卷的权限不同,则取并集。
容器内访问路径
「容器内访问路径」指在创建实例(开发机、任务、推理服务)时,将外部的存储卷挂载到容器内部文件系统中的具体目录路径。
- 作用:用户在容器内部(如终端、代码中)通过该路径访问存储卷中的数据。
- 自定义:用户可自定义该路径,但不能使用系统保留路径(如
/,/boot,/dev等)。 - 示例:将 ID 为
vo-db2mlm7jmq55l5kh,路径为/public的存储卷挂载到容器内的/mnt/public,则在容器内访问/mnt/public目录即访问该存储卷。
重要
关于 /mnt/public 的说明
文档中频繁出现的 /mnt/public 仅作为示例路径。平台不会默认自动创建或挂载此路径。
如果您希望在容器中使用 /mnt/public 访问共享存储,必须在创建实例(开发机、任务等)的「存储配置」步骤中,显式地将「挂载点」设置为 /mnt/public。如果您设置了其他路径(如 /mnt/data),则请在代码中使用 /mnt/data 访问数据。
资源规格
资源规格用于描述租户购买的计算资源配额。
例如,如果您的租户下单购买了 2 份以下包年包月计算资源规格:
- 资源规格编码:
g6l.111xlarge - 显卡型号 NVIDIA RTX4090-24G PCIe
- 显卡数量 8
- vCPU 核数 112
- 内存 896GB
注意
默认情况下,在租户购买包年包月资源时,仅支持按 8 卡资源规格购买配额(单个资源节点 8 卡),不支持按 1/2/4 卡购买资源配额。
那么,您的租户获得了使用最多同时使用 16 个 NVIDIA RTX4090 的配额。
- 如果使用 1卡的算力规格创建开发机,最多可同时创建并运行 16 台包含 1 个 GPU 的开发机。每台开发机的 GPU 核数为 14、内存为 112GB。
- 如果使用 8卡算力规格创建任务,最多可同时创建并运行 2 个包含 8 个 GPU 的开发机。
- 创建推理服务时,如果1卡的算力规格,使用 16 个实例,最多可同时运行 1 个推理服务。
您可以在资源池页面查看租户购买的算力资源配额、规格。

资源池
AIStudio 采用了「可用区」和「资源池」的概念组合,帮助租户管理云上的计算资源。
更多内容请见资源池。
资源池在文档中常见的表达包括:
- 共享资源池:租户自行创建的资源池,用于创建共享型开发机(GPU 复用模式)。共享资源池中的资源专用于共享开发机,不用于任务或推理服务。详见使用共享资源创建开发机 和使用专属/共享资源池。
- 专属资源池:租户独占的资源池,通常更稳定。
- 包年包月资源池:长期配额型资源池,适合持续使用场景。
注意
资源池的 GPU 可能被「容器服务占用」(AI 容器服务平台使用)。当资源被容器服务占用后,不能再用于 AIStudio 的开发机/任务/推理服务。详见 资源统计。
AI 容器服务(KubeStudio)
AI 容器服务平台(KubeStudio)用于创建虚拟集群并运行容器化工作负载,它与 AIStudio 同属于智算云平台,但属于不同的产品形态。
- 容器服务占用:指资源池中的 GPU 被 KubeStudio 虚拟集群占用后形成的占用量,该部分资源不能同时用于 AIStudio 的开发机/任务/推理服务。
- 更多内容请见 KubeStudio 和 资源统计。
租户
「租户」是智算云平台中的组织隔离单元,代表一个独立的账户空间。每个租户拥有独立的资源配额、用户管理、计费和权限体系。
- 租户管理员:拥有租户内最高权限,可管理用户、资源配额、API 密钥等
- 普通用户:由租户管理员创建,根据授权访问特定资源
更多内容请见租户管理。
用户组
用户组是一种批量管理用户权限的机制。通过将用户加入用户组,可以统一授予该组内所有用户相同的资源访问权限。
- 一个用户可以属于多个用户组
- 用户的最终权限为其个人权限与所属用户组权限的并集
可用区
可用区是智算云平台计算资源部署的区域,一个可用区对应一个独立的计算资源集群。同一可用区内的资源可以互相访问和挂载存储。
- 创建开发机、任务、推理服务时需选择资源池,资源池绑定到特定可用区
- 存储卷只能挂载到同一可用区的实例
- 不同可用区之间的资源默认不互通(可用区 A 的资源池只能在可用区 A 使用,不能用于可用区 B 的实例)
更多内容请见资源池管理。
环境变量
环境变量用于在容器运行时传递配置信息,无需修改代码即可调整应用行为。
- 任务:创建时可在网页界面的「环境变量」配置区域设置
- 开发机和推理服务:通过启动命令设置(如
export VAR=value) - 平台预置变量:平台会自动注入分布式通信、资源信息等变量
更多内容请见 PyTorch DDP 环境变量、分布式推理环境变量。
启动命令
启动命令定义了容器实例启动后执行的入口程序或脚本。
- 开发机:支持自定义启动命令,用于自动化初始化或启动后台服务。启动命令有 3 分钟超时限制,适合轻量级任务(如环境检查、启动已安装的服务),不适合安装依赖或下载大文件。详见开发机启动命令。
- 任务:必须指定启动命令,命令结束后容器自动销毁。平台根据退出码判断任务状态(0=成功,非0=失败),注意避免
tee吞掉退出码。详见优化训练任务启动命令。 - 推理服务:必须指定启动命令,且命令必须是持续运行的前台进程。命令结束即容器销毁,建议使用
exec启动服务以支持优雅停机。详见优化推理服务启动命令。
注意
无论是否使用自定义启动命令,平台都会忽略镜像中定义的 Entrypoint 或 Command。
API 密钥
API 密钥(API Key)是用于访问 API 服务的身份凭证。
- 用于 GenStudio API 服务调用
- 用于 AIStudio 推理服务的外网 API 鉴权
- 可在「访问控制」中创建、查看和管理
更多内容请见 API 密钥管理。
SSH 公钥
SSH 公钥用于配置免密登录开发机,是进行 SSH 登录与 SSH 端口转发的基础凭证之一。
- 公钥/私钥:公钥上传到平台或写入开发机,私钥保存在本地,用于发起连接。
- 常见用途:本地终端 SSH 登录、VS Code Remote SSH、SSH 端口转发等。
- 参考 SSH。
权限策略
权限策略定义了用户可以执行的操作。AIStudio 支持两种类型的策略:
- 系统策略:平台预置的权限策略,如「开发机完全访问」「任务只读访问」等
- 自定义策略:租户管理员根据业务需求自定义的细粒度权限策略
策略需要与授权范围配合使用,授权范围限定策略作用的资源。
系统盘
系统盘是容器实例的根文件系统存储(rootfs)。不同类型的实例系统盘持久化行为不同:
- 开发机:100 GiB,持久化存储。关机或重启后数据保留,仅在删除开发机或连续关机超过 30 天后清除。
- 任务:50 GiB,非持久化。任务结束后数据丢失,请将训练结果保存到共享高性能存储。
- 推理服务:50 GiB,非持久化。服务停止或删除后数据丢失。
更多内容请见系统盘。
端口转发
端口转发允许您从本地访问开发机内部运行的服务。例如,在开发机上运行 Jupyter Notebook 或 TensorBoard 时,可通过端口转发在本地浏览器中访问。
支持通过 SSH 隧道进行端口转发(即 SSH 端口转发)
部分场景可使用平台提供的 Web 服务直接访问
参考 SSH
日志
AIStudio 提供多种日志查看方式,帮助您调试和监控:
- 任务日志:查看训练任务所有 Worker 的标准输出和错误输出
- 容错日志:任务启动检测、异常定位、训练变慢检测等系统级诊断输出(需开启任务容错功能)
- 推理服务日志:查看推理服务运行日志,排查请求异常
资源监控
资源监控用于实时查看容器实例的资源使用情况:
- GPU 监控:显存占用、GPU 利用率
- CPU/内存监控:CPU 使用率、内存占用
- 网络监控:入站/出站流量
可在任务详情页和推理服务详情页查看资源监控面板。