使用共享资源创建开发机
本文描述了如何使用共享资源创建 AIStudio 开发机。
您将了解:
- 什么是共享算力资源
- 使用共享资源创建开发机的优势
- 如何创建一台挂载 8 个 GPU 的 Linux 开发机。
- 如何为开发机启用 Docker 功能。
- 如何查看开发机是否创建成功。
开发机类型对比
针对使用包年包月算力资源的场景,平台提供两种开发机资源分配模式,请根据使用场景选择。
GPU 共享模式(共享资源型开发机)
租户内多个开发机实例复用同一组物理 GPU:
- 单个 8 卡节点最多可创建 16 台开发机
- 每台开发机均可访问全部 8 个 GPU
- 多个实例竞争有限的 VRAM 资源(先到先得)
注意
关键特性说明:如果共享算力资源节点的规格为 NVIDIA A100 80GB * 8,则:
- 最多可创建 16 台开发机,每台开发机均为 8 卡规格(因为每台都可访问全部 8 个 GPU)
- 不支持创建 1/2/4 卡或其他卡数的开发机
- 所有开发机共享 VRAM(如 8×80GB = 640GB 总显存),遵循先到先得原则分配
- 建议团队成员在使用 GPU 算力前提前内部沟通,避免 VRAM 资源竞争导致任务失败
GPU 独占模式(包年包月资源型开发机)
每个开发机实例独占部分 GPU 资源:
- 单个 8 卡节点按 GPU 数量划分(如 8 台 1 卡、4 台 2 卡、1 台 8 卡等)
- 每台开发机仅访问分配给它的 GPU
- 资源独占,无竞争,性能稳定可预期
| 对比维度 | 共享型开发机 | 独占型开发机(包年包月) |
|---|---|---|
| 分配模式 | 16 个实例复用 8 个 GPU | 每实例独占部分 GPU |
| GPU 访问 | 全部实例均可访问全部 8 GPU | 仅访问分配的 GPU |
| 资源竞争 | VRAM 竞争,先到先得 | 无竞争,资源保障 |
| 典型场景 | 开发、调试、弹性使用 | 训练、生产、稳定性要求高 |
共享资源型开发机的优势
在团队协作场景中,使用独占型开发机时,您可能遇到以下挑战:
- 😠 资源分配不均:有限的 GPU 资源导致部分成员无法创建开发机
- 😠 资源利用率低:独占式使用导致大量 GPU 算力闲置浪费
- 😠 持续运行难题:为给他人腾出资源而被迫关机,影响开发进度
共享型开发机通过 GPU 复用模式解决这些问题。在相同的算力配额下(如 NVIDIA A100 80GB × 8),可创建更多开发机(最多 16 台),让更多团队成员同时工作:
- ✅ 更高的资源可用性:16 台开发机 vs 8 台独占开发机,更多成员可以同时使用
- ✅ 独立的开发环境:每台开发机拥有独立的系统环境和文件系统,互不干扰
- ✅ 7×24 持续运行:开发机可以持续运行,无需为他人腾出资源而关机
- ✅ 灵活的资源调度:按需使用 GPU 资源,空闲时自动释放给其他任务
适用场景:开发调试、模型验证、轻量训练等弹性使用场景,特别适合需要频繁访问开发环境但不持续占用 GPU 的工作负载。
前提条件
共享资源型开发机的前提条件:
- 在创建开发机场景下,共享资源是对包年包月资源的另一种分配模式(支持 GPU 复用),因此租户必须购买「包年包月资源」类型算力资源,才能使用「共享资源」创建开发机。
- 租户必须自行创建共享资源池,并在其中移入已购包年包月资源。若无共享资源池,在创建共享开发机时,资源池列表将展示为空。
购买包年包月资源
前往算力市场浏览可选配置,支持自助下单(也可以联系商务下单)。
创建共享资源池
前往智算云平台的资源池页面查看租户当前的共享资源池,以及共享资源池中的资源规格。
创建共享资源池时,移入资源的来源可选择默认和专属类别的资源池(即从这些资源池移出包年包月资源)。
存储资源
使用共享资源创建的 AIStudio 开发机可使用以下类型存储资源。
- 系统盘:免费提供 100GiB 持久化系统盘(挂载在
/下),所有开发机均享有该免费容量。 - 共享高性能存储:租户可额外购买共享高性能存储。可挂载至的不同实例中。容器实例间共享,可以多点读写,不受实例释放的影响。
提示
- 支持线上自助购买「广东B」可用区的共享高性能存储。详见管理共享高性能存储。
- 其他可用区共享高性能存储暂不支持线上购买,如需购买,请联系商务。
创建开发机
访问智算云平台开发机列表页面,单次可创建一台开发机。
点击 创建开发机。请根据页面提示,完成下方所有步骤中的配置。
Step 0 配置开发机规格信息
指定开发机的算力规格。
- 资源类型:指定算力资源来源为 共享资源。
- 资源池:展开下拉列表,从可选共享月资源池中,选定一个资源池。如果资源池列表为空,请查看资源要求。
- 规格:筛选 GPU 型号、CPU 数量、内存符合要求的算力规格。共享资源节点当前仅支持启动 8 卡「算力规格」的开发机(因为每台开发机需访问节点上全部 8 个 GPU)。
- 资源节点:选定资源池后,平台会展示出当前共享资源池内所有共享资源节点。每个共享资源节点会实时展示开发机数量和剩余额度。
- 一个共享资源节点最多可运行 16 台开发机。请选择有剩余开发机额度的节点启动开发机。
- 点击资源节点卡片上的使用详情,可查看节点上运行的负载信息。每条负载记录展示该开发机的名称/ID、负载类型、创建者和创建时间,其中「占用显卡与显存占比」 字段特别展示当前占用的全部显卡编号(如 GPU0)及其显存占用情况。详细字段说明见共享资源池的负载详情表。

提示
- 开发机额度管理:共享开发机关机后,平台自动释放该共享资源节点上的开发机额度(16 个额度中的 1 个)。如果后续该资源节点上 16 个额度被占满,则无法在当前节点上启动更多开发机,需要使用「改配」功能将开发机迁移到其他节点。
- 资源节点规划建议:在大型团队中使用多个共享资源节点时,建议不要随机选择节点,否则在资源整体使用率较高时可能常会遇到无法开机的情况。建议在团队内合理规划和分配资源节点,引导成员选择合适的节点放置开发机。
共享内存:不可修改,具体是指开发机的
/dev/shm分区大小,当前为「规格」内存的一半。共享内存(shared memory)允许不同进程可以访问同一块内存区域以实现数据共享和交互。RDMA 配置: 如果所选规格的「训练网配置」为 RoCE 或 IB 且 GPU 数量为 8 卡,可看到该附加配置项。RDMA 配置在规格为 8 卡时自动开启,GPU 数量小于 8 卡时无法开启 RDMA。
警告
GPU 数量小于 8 卡时禁止使用 RDMA 配置。
Step 1 配置开发环境
在「基础配置」区域,需要完成开发机的「镜像」「公钥」「SSH 登录密码」等配置。

镜像:镜像包含了运行应用程序所需的所有代码、运行时、库和环境配置。
公钥:即 SSH 公钥,在 SSH 远程登录到 AIStudio 开发机时,可使用 SSH 公钥进行认证,无需输入密码。在开发机每次启动时,平台会检查开发机
~/.ssh/authorized_keys文件,并自动注入「SSH 公钥管理」中已添加的 SSH 公钥。如需帮助,参考 SSH 远程登录。SSH 登录密码: 启用后,平台自动生成初始密码。在 SSH 远程登录到 AIStudio 开发机时,如无 SSH 密钥认证,可通过密码认证。后续可自助修改密码(仅限开发机创建者修改)。
Docker 容器:首次使用开发机时建议保持关闭。如果需要在开发机内部使用
docker pull、docker run等命令构建镜像、启动容器等,可开启该选项。详见Docker 功能。注意
如需管理开发机内 Docker 服务,需使用
dockerctl命令,例如dockerctl status。详见 Dockerctl。启动命令: 为开发机指定「启动命令」字段,让开发机在启动时自动执行特定命令(例如
conda activate),实现自定义初始化、环境验证或自动化任务。详见启动命令。
Step 2 配置存储
系统盘: 开发机
/目录的存储大小,固定 100GiB,支持持久化保存。公共数据:若所选算力规格位于支持的可用区(如广东B、宁夏B、北京D),可勾选「挂载公共数据」。勾选后,容器内
/infini-data/路径下将以只读方式挂载常用的开源模型和数据集。共享高性能存储:开发机可挂载租户的共享高性能存储。详见共享高性能存储。
- 文件系统名称:选择租户在当前可用区的文件系统(租户在一个可用区一般仅一个文件系统)。
- 存储卷:选择需要挂载的共享存储卷。
- 挂载路径:指定该存储卷在实例内部的挂载路径。
共享高性能存储配置项如下(表中为配置示例):
文件系统名称 存储卷名称与 ID 挂载点(容器内访问路径) 挂载权限 广东B-默认高性能存储 /public (vo-c7kcjqv2tjs5llry)/mnt/public公共读写
Step 3 外网配置
如果在开发机内运行的服务提供 Web UI,可在 Web 应用预览区域填写需要代理的端口号,后续从开发机详情中可直接跳转预览页面。
该功能要求在开发机内启动服务时,绑定到所有网络接口(0.0.0.0)。其他要求详见 Web 应用预览。
Step 4 填写基本信息
- 名称:1~64 个字符,支持中英文数字以及- _,允许重复,名称不唯一。
- 描述:添加描述或者备注,长度 1~400 个字符,可留空。
- 标签:可新建和绑定自定义标签。资源标签是一组键值对(Key-Value)。您可以通过标签从不同维度对一站式 AI 平台内的资源进行分类与聚合管理,用于按标签筛选等场景。详见标签管理。
完成表单配置后,点击确认创建,开发机进入创建流程。创建成功后,您可以在列表中查看状态。
如果资源不足,创建任务会进入排队队列;资源足够时,进入部署中状态。
查看部署进度
开发机进入部署中状态后,将会执行一系列子操作。仅在所有子状态均完成的情况下,开发机才会成功运行。
如果开发机长时间停留在部署中状态,建议访问开发机列表,在状态栏中点击部署中旁边的 ... 图标,查看详细进度。
如果在任何子状态发生错误,平台会自动重试。如果进度长时间停留在错误状态且无法恢复,建议停止开发机,并重新创建。如果问题持续存在,请联系售后服务。
常见问题
共享资源创建的开发机,每个开发机的 CPU 内存 GPU 的规格是怎样的?
每台共享开发机均可访问 8 卡整机的 CPU/Memory/GPU 资源上限(采用复用模式)。但需要注意:
- 所有共享开发机(最多 16 台)共同竞争 VRAM 和计算资源
- 遵循先到先得原则分配资源
- 建议团队成员自行协调沟通使用时段和资源用量,避免资源挤占导致任务失败
如何 SSH 远程登录?
详见 SSH 远程登录。
如何变更开发机配置?
如需变更开发机的负载规格(CPU、GPU、内存)、镜像等配置,可直接使用「改配」功能,无需重复创建开发机。开发机改配后将先进入清理中状态,随后开始重新部署。详见变更开发机配置。
如何使用 root 身份登录?
开发机默认使用 root。
部分旧版实例仍默认使用非 root 普通用户名登录,重启后将自动更新。如暂时无法停止开发机,可使用 sudo -i 免密切换为 root。
注意
执行任何文件操作前,请核实当前用户身份,避免文件权限混乱。
如何传输文件到开发机?
如果习惯使用命令行,可使用 scp 或 sftp 传输文件到开发机。
如何预览开发机上运行的 Web 应用?
在开发机运行带 GUI 的 Web 服务时,通过配置 Web 应用预览端口,可以实现直接从智算云平台打开预览页面。详见预览开发机上运行的 Web 应用。
如何从公网访问开发机内的服务?
开发机内服务往往只监听了内网地址,无法直接从公网访问。如遇到演示、测试等临时性场景,可能需要从公网访问开发机内服务。这时,我们可以利用 SSH 端口转发功能,将云服务器内网端口映射到本地电脑,从而实现访问。