GenStudio 全新上架 ComfyUI 工作流托管服务GenStudio 全新上架 ComfyUI 工作流托管服务 ,已适配主流 ckpt 模型与节点了解更多
Skip to content

使用开发机

本文描述了如何使用 AIStudio 的开发机功能。

您将了解:

  • 如何创建一台挂载 1/2/4/8 个 GPU 的 Linux 开发机。
  • 如何为开发机启用 Docker 功能。
  • 如何查看开发机是否创建成功。
  • 如何变更开发机配置。

前提条件

准备算力资源

运行开发机需要算力资源。无问芯穹为 AIStudio 客户提供以下算力资源:

  • 预付费资源: 租户按固定周期(包两年/包年/包月/包周/包日)购买算力资源配额的独占使用权,到期前需主动续费。

  • 弹性资源: 智算云平台提供的公共算力资源,按卡时付费。创建弹性资源开发机时按页面单价即时购买。请确保余额充足,或提前充值。

NOTE

  • AIStudio 基于 K8S 和容器技术提供主要功能,仅提供池化的算力资源,而非裸机或虚拟机。
  • 运行开发机时需要指定「规格」(CPU、GPU、内存)。您只能按 AIStudio 预定义的负载规格使用算力,按 GPU 数量分为 1、2、4、8 卡。例如: 您试用的算力资源为 NVIDIA A100 80G 显存 * 8,则您获得了使用 8 个 NVIDIA A100 的配额,可创建 8 个包含 1 个 GPU 的开发机。

准备存储资源

无问芯穹为 AIStudio 的开发机提供以下存储选项:

  • 免费提供 50 GiB 持久化系统盘(挂载在 / 下),所有开发机均可使用。
  • 免费提供 50 GiB 的临时存储(挂载在 /disk 下),仅限弹性资源开发机使用。
  • 共享高性能存储:可挂载至的不同实例中。容器实例间共享,可以多点读写,不受实例释放的影响。

创建开发机

访问智算云平台开发机列表页面,单次可创建一台开发机。

点击 创建开发机。请根据页面提示,完成下方所有步骤中的配置。

Step 0 选择算力来源和规格

首先,根据开发环境要求,在您购买的算力资源池中选择合适的 GPU 算力来源。

先通过 资源类型 指定算力资源来源。资源池 类型指使用租户的预付费资源(包两年/包年/包月/包周/包日)。弹性资源 类型指使用智算云平台的公开算力资源,即时购买,按量付费。

  • 如果算力资源类型为资源池,平台会列出租户下的所有资源池,供进一步选择。

    alt text

    NOTE

    算力资源一般按单个 GPU 型号的数量分为 1、2、4、8 卡四种「算力规格」,配备不同的 CPU 核数与内存。您只能按 AIStudio 预定义的规格使用算力。

    使用预付费资源时,平台会根据租户算力库存和算力规格计算剩余可启动数量。例如,图中租户的算力配额剩余为 NVIDIA A100 80GB * 8,那么如果使用规格 NVIDIA A100-80-NVLinK 显卡数量 8 启动开发机,则还可启动 1 台开发机。如果使用规格 NVIDIA A100-80-NVLinK 显卡数量 1 启动开发机,则还可启动 8 台开发机。

  • 如果算力资源类型为弹性资源,平台会列出当前公开售卖的弹性算力资源规格和单价。

    alt text

共享内存 是指开发机的 /dev/shm 分区大小,当前为「规格」内存的一半,不可修改。共享内存(shared memory)允许不同进程可以访问同一块内存区域以实现数据共享和交互。

Step 1 配置开发环境

上面已经完成了开发机的算力配置。接下来,继续配置开发环境。

alt text

  • 镜像:运行开发机使用的容器镜像。平台预置了 Ubuntu 基础镜像和 Pytorch、NGC、CUDA 等镜像,也支持构建自定义镜像。详见镜像中心
  • 公钥:供 SSH 远程登录使用(非 root 用户)。您需要在此处填写您本地生成的 SSH 公钥,用于远程登录开发机。如需帮助,请参考教程添加 SSH 公钥指南
  • docker 容器: 开启后,可以在开发机内使用 docker pulldocker run 等命令构建镜像、启动容器等。详见 Docker 功能

Step 2 配置存储

  • 系统盘: 开发机 / 目录的存储大小,固定 50GiB,支持持久化保存。
  • 临时存储: 开发机 /disk 目录的存储大小,固定 50GiB,仅限弹性资源开发机使用。
  • 共享高性能存储:开发机可挂载租户的共享高性能存储。详见共享高性能存储

Step 3 填写基本信息

  • 名称:1~64 个字符,支持中英文数字以及- _,允许重复,名称不唯一。
  • 描述:添加描述或者备注,长度 1~400 个字符,可留空。

完成表单配置后,点击确认创建,开发机进入创建流程。创建成功后,您可以在列表中查看状态。​

如果资源不足,创建任务会进入排队队列;资源足够时,进入部署中状态。​

查看部署进度

开发机进入部署中状态后,将会执行一系列子操作。仅在所有子状态均完成的情况下,开发机才会成功运行。

如果开发机长时间停留在部署中状态,建议访问开发机列表,在状态栏中点击部署中旁边的 ... 图标,查看详细进度。

如果在任何子状态发生错误,平台会自动重试。如果进度长时间停留在错误状态且无法恢复,建议停止开发机,并重新创建。如果问题持续存在,请联系售后服务。

变更开发机配置

如需变更开发机的负载规格(CPU、GPU、内存)、镜像等配置,可直接使用「改配」功能,无需重复创建开发机。

alt text

改配时,您可以选择保留原系统盘(/)数据,也可以选择清空系统盘数据。

WARNING

  • 若希望恢复系统盘数据,推荐使用原镜像启动,否则可能出现环境冲突。
  • 不支持修改开发机的资源类型、资源池、名称和描述。

alt text

开发机改配后将先进入清理中状态,随后开始重新部署。

常见问题

如何使用 root 身份登录?

默认登录用户为非 root 身份,支持使用 sudo -i 免密切换为 root。

在SSH 远程登录时,如果需要直接以 root 身份登录,可参考教程 如何使用 root 身份登录开发机

WARNING

执行任何文件操作前,请核实当前用户身份,避免文件权限混乱。

如何添加 SSH 公钥?

如果在创建开发机时未上传 SSH 公钥,可参考以下方法:

  • 通过开发机「改配」功能添加 SSH 公钥。注意开发机改配后会重启。
  • 直接在开发机内添加 SSH 公钥。如需帮助,可参考教程 添加 SSH 公钥指南

如何传输文件到开发机?

如果习惯使用命令行,可使用 scpsftp 传输文件到开发机。

如果需要图形界面,可参考教程 如何使用 FileZilla 管理开发机内的文件

如何从公网访问开发机内的服务?

开发机内服务往往只监听了内网地址,无法直接从公网访问。如遇到演示、测试等临时性场景,可能需要从公网访问开发机内服务。这时,我们可以利用 SSH 端口转发功能,将云服务器内网端口映射到本地电脑,从而实现访问。

详细操作步骤,可参考教程 如何从公网访问开发机内的服务