使用开发机
本文描述了如何使用 AIStudio 的开发机功能。
您将了解:
- 如何创建一台挂载 1/2/4/8 个 GPU 的 Linux 开发机。
- 如何为开发机启用 Docker 功能。
- 如何查看开发机是否创建成功。
- 如何变更开发机配置。
前提条件
准备算力资源
运行开发机需要算力资源。无问芯穹为 AIStudio 客户提供以下算力资源:
预付费资源: 租户按固定周期(包两年/包年/包月/包周/包日)购买算力资源配额的独占使用权,到期前需主动续费。
弹性资源: 智算云平台提供的公共算力资源,按卡时付费。创建弹性资源开发机时按页面单价即时购买。请确保余额充足,或提前充值。
NOTE
- AIStudio 基于 K8S 和容器技术提供主要功能,仅提供池化的算力资源,而非裸机或虚拟机。
- 运行开发机时需要指定「规格」(CPU、GPU、内存)。您只能按 AIStudio 预定义的负载规格使用算力,按 GPU 数量分为 1、2、4、8 卡。例如: 您试用的算力资源为 NVIDIA A100 80G 显存 * 8,则您获得了使用 8 个 NVIDIA A100 的配额,可创建 8 个包含 1 个 GPU 的开发机。
准备存储资源
无问芯穹为 AIStudio 的开发机提供以下存储选项:
- 免费提供 50 GiB 持久化系统盘(挂载在
/
下),所有开发机均享有该免费容量。 - 如果使用「弹性资源池」创建开发机(即按量付费型开发机),免费提供 20 GiB 的云盘(挂载在
/datadisk
下),支持持久化保存。详见云盘。 - 共享高性能存储:可挂载至的不同实例中。容器实例间共享,可以多点读写,不受实例释放的影响。
创建开发机
访问智算云平台开发机列表页面,单次可创建一台开发机。
点击 创建开发机。请根据页面提示,完成下方所有步骤中的配置。
Step 0 选择算力来源和规格
首先,根据开发环境要求,在您购买的算力资源池中选择合适的 GPU 算力来源。
先通过 资源类型 指定算力资源来源。资源池 类型指使用租户的预付费资源(包两年/包年/包月/包周/包日)。弹性资源 类型指使用智算云平台的公开算力资源,即时购买,按量付费。
如果算力资源类型为资源池,平台会列出租户下的所有资源池,在资源池右侧可直接查看空闲可用卡数。
选定资源池后,可点击占用情况查看当前资源占用明细,并提前判断是否可启动多卡实例。
NOTE
算力资源一般按单个 GPU 型号的数量分为 1、2、4、8 卡四种「算力规格」,配备不同的 CPU 核数与内存。您只能按 AIStudio 预定义的规格使用算力。
使用预付费资源时,平台会根据租户算力库存和算力规格计算剩余可启动数量。例如,图中租户的算力配额剩余为 NVIDIA A100 80GB * 8,那么如果使用规格
NVIDIA A100-80-NVLinK 显卡数量 8
启动开发机,则无法启动开发机。如果使用规格NVIDIA A100-80-NVLinK 显卡数量 1
启动开发机,则还可启动 7 台开发机。如果算力资源类型为弹性资源,平台会列出当前公开售卖的弹性算力资源规格和单价。
共享内存 是指开发机的 /dev/shm
分区大小,当前为「规格」内存的一半,不可修改。共享内存(shared memory)允许不同进程可以访问同一块内存区域以实现数据共享和交互。
Step 1 配置开发环境
在「基础配置」区域,需要完成开发机的「镜像」「公钥」「SSH 登录密码」等配置。
镜像:运行开发机使用的容器镜像。平台预置了 Ubuntu 基础镜像和 Pytorch、NGC、CUDA 等镜像,也支持构建自定义镜像。
NOTE
如果您从裸金属服务器迁移到 AIStudio 开发机,您可以先尝试使用 Ubuntu 基础镜像,或含 Pytorch 的 NGC 镜像。
公钥:即 SSH 公钥。如正确填写 SSH 公钥,在 SSH 远程登录到 AIStudio 开发机时,可使用 SSH 公钥进行认证,无需输入密码。如果不使用 SSH 密钥,可先选择留空,并启用 SSH 登录密码。
SSH 登录密码: 启用后,平台自动生成初始密码。在 SSH 远程登录到 AIStudio 开发机时,可使用账号密码认证。后续自助修改密码(仅限开发机创建者修改)。
Docker 容器:首次使用开发机时建议保持关闭。如果需要在开发机内部使用
docker pull
、docker run
等命令构建镜像、启动容器等,可开启该选项。详见 Docker 功能。
Step 2 配置存储
- 系统盘: 开发机
/
目录的存储大小,固定 20GiB,支持持久化保存。 - 云盘: 如果使用「弹性资源池」创建开发机(即按量付费型开发机),免费提供 20 GiB 的云盘(挂载在
/datadisk
下),支持持久化保存。详见云盘。NOTE
云盘暂仅支持使用「弹性资源池」 A100 机型创建的开发机。暂仅支持在创建开发机扩大云盘容量,如需更大云盘容量,请务必在创建开发机规划好云盘容量,并选择需要扩容。后续将支持付费扩容已有云盘。
- 共享高性能存储:开发机可挂载租户的共享高性能存储。详见共享高性能存储。
Step 3 填写基本信息
- 名称:1~64 个字符,支持中英文数字以及- _,允许重复,名称不唯一。
- 描述:添加描述或者备注,长度 1~400 个字符,可留空。
完成表单配置后,点击确认创建,开发机进入创建流程。创建成功后,您可以在列表中查看状态。
如果资源不足,创建任务会进入排队队列;资源足够时,进入部署中状态。
查看部署进度
开发机进入部署中状态后,将会执行一系列子操作。仅在所有子状态均完成的情况下,开发机才会成功运行。
如果开发机长时间停留在部署中状态,建议访问开发机列表,在状态栏中点击部署中旁边的 ...
图标,查看详细进度。
如果在任何子状态发生错误,平台会自动重试。如果进度长时间停留在错误状态且无法恢复,建议停止开发机,并重新创建。如果问题持续存在,请联系售后服务。
变更开发机配置
如需变更开发机的负载规格(CPU、GPU、内存)、镜像等配置,可直接使用「改配」功能,无需重复创建开发机。
改配时,您可以选择保留原系统盘(/
)数据,也可以选择清空系统盘数据。
WARNING
- 若希望恢复系统盘数据,推荐使用原镜像启动,否则可能出现环境冲突。
- 不支持修改开发机的资源类型、资源池、名称和描述。
开发机改配后将先进入清理中状态,随后开始重新部署。
常见问题
如何使用 root 身份登录?
开发机默认使用 root
。
部分旧版实例仍默认使用非 root 普通用户名登录,重启后将自动更新。如暂时无法停止开发机,可使用 sudo -i
免密切换为 root。
NOTE
执行任何文件操作前,请核实当前用户身份,避免文件权限混乱。
如何传输文件到开发机?
如果习惯使用命令行,可使用 scp
或 sftp
传输文件到开发机。
如果需要图形界面,可参考教程 如何使用 FileZilla 管理开发机内的文件。
如何从公网访问开发机内的服务?
开发机内服务往往只监听了内网地址,无法直接从公网访问。如遇到演示、测试等临时性场景,可能需要从公网访问开发机内服务。这时,我们可以利用 SSH 端口转发功能,将云服务器内网端口映射到本地电脑,从而实现访问。
详细操作步骤,可参考教程 如何从公网访问开发机内的服务。