使用包年包月资源创建开发机
本文描述了如何使用租户购买的预付费资源(包年/包月/包周/包天)创建 AIStudio 开发机。
您将了解:
- 什么是包年包月算力资源
- 如何创建一台挂载 1/2/4/8 个 GPU 的 Linux 开发机
- 如何为开发机启用 Docker 功能。
- 如何查看开发机是否创建成功。
前提条件
包年包月算力资源
包年包月算力资源是指租户按固定周期(包两年/包年/包月/包周/包日)购买算力资源配额的独占使用权,到期前需主动续费。
例如: 您租户购买的算力资源为 NVIDIA A100 80G 显存 * 8,则租户获得了使用 8 个 NVIDIA A100 的配额。用于创建开发机时,只能按 AIStudio 预定义的负载规格使用算力(按 GPU 数量分为 1、2、4、8 卡)。如果创建 4 个包含 2 个 GPU 的开发机,则该算力资源已被占满。
您可以前往智算云平台的资源池页面查看租户是否拥有包年包月算力资源。
TIP
- 租户购买的包年包月算力资源一般属于默认类别。租户可从默认资源池移出资源,加入租户自建的专属资源池,因此专属类别的资源池也会存放包年包月资源。
- AIStudio 基于 K8S 和容器技术提供主要功能,仅提供池化的算力资源,而非裸机或虚拟机。
存储资源
无问芯穹为使用包年包月资源创建的 AIStudio 开发机提供以下存储选项:
- 免费提供 50 GiB 持久化系统盘(挂载在
/
下),所有开发机均享有该免费容量。 - 共享高性能存储:可挂载至的不同实例中。容器实例间共享,可以多点读写,不受实例释放的影响。
创建开发机
访问智算云平台开发机列表页面,单次可创建一台开发机。
点击 创建开发机。请根据页面提示,完成下方所有步骤中的配置。
Step 0 选择算力来源和规格
先通过 资源类型 指定算力资源来源为 包年包月资源,请展开下拉列表,展示租户下的所有包年包月资源池,并选定一个资源池。
平台会根据租户算力库存和算力规格计算剩余可启动数量。例如,图中租户的算力配额剩余为 NVIDIA A100 40GB * 11,如果使用规格 NVIDIA A100-40-NVLinK 显卡数量 4
启动开发机,则最多可启动 2 台开发机。
NOTE
- 算力资源一般按单个 GPU 型号的数量分为 1、2、4、8 卡四种「算力规格」,配备不同的 CPU 核数与内存。您只能按 AIStudio 预定义的规格使用算力。
- 共享内存 不可修改,具体是指开发机的
/dev/shm
分区大小,当前为「规格」内存的一半。共享内存(shared memory)允许不同进程可以访问同一块内存区域以实现数据共享和交互。
资源池上会展示空闲可用卡数。可点击占用情况和负载排队情况查看当前资源占用明细,和负载排队情况,并提前判断是否可启动多卡实例。以下为占用情况的展示:
Step 1 配置开发环境
在「基础配置」区域,需要完成开发机的「镜像」「公钥」「SSH 登录密码」等配置。
镜像:运行开发机使用的容器镜像。平台预置了 Ubuntu 基础镜像和 Pytorch、NGC、CUDA 等镜像,也支持构建自定义镜像。
NOTE
如果您从裸金属服务器迁移到 AIStudio 开发机,您可以先尝试使用 Ubuntu 基础镜像,或含 Pytorch 的 NGC 镜像。
公钥:即 SSH 公钥。如正确填写 SSH 公钥,在 SSH 远程登录到 AIStudio 开发机时,可使用 SSH 公钥进行认证,无需输入密码。如果不使用 SSH 密钥,可先选择留空,并启用 SSH 登录密码。
SSH 登录密码: 启用后,平台自动生成初始密码。在 SSH 远程登录到 AIStudio 开发机时,可使用账号密码认证。后续自助修改密码(仅限开发机创建者修改)。
Docker 容器:首次使用开发机时建议保持关闭。如果需要在开发机内部使用
docker pull
、docker run
等命令构建镜像、启动容器等,可开启该选项。详见 Docker 功能。
Step 2 配置存储
- 系统盘: 开发机
/
目录的存储大小,固定 20GiB,支持持久化保存。 - 共享高性能存储:开发机可挂载租户的共享高性能存储。详见共享高性能存储。
Step 3 填写基本信息
- 名称:1~64 个字符,支持中英文数字以及- _,允许重复,名称不唯一。
- 描述:添加描述或者备注,长度 1~400 个字符,可留空。
完成表单配置后,点击确认创建,开发机进入创建流程。创建成功后,您可以在列表中查看状态。
如果资源不足,创建任务会进入排队队列;资源足够时,进入部署中状态。
查看部署进度
开发机进入部署中状态后,将会执行一系列子操作。仅在所有子状态均完成的情况下,开发机才会成功运行。
如果开发机长时间停留在部署中状态,建议访问开发机列表,在状态栏中点击部署中旁边的 ...
图标,查看详细进度。
如果在任何子状态发生错误,平台会自动重试。如果进度长时间停留在错误状态且无法恢复,建议停止开发机,并重新创建。如果问题持续存在,请联系售后服务。
常见问题
如何变更开发机配置?
如需变更开发机的负载规格(CPU、GPU、内存)、镜像等配置,可直接使用「改配」功能,无需重复创建开发机。开发机改配后将先进入清理中状态,随后开始重新部署。详见变更开发机配置。
如何使用 root 身份登录?
开发机默认使用 root
。
部分旧版实例仍默认使用非 root 普通用户名登录,重启后将自动更新。如暂时无法停止开发机,可使用 sudo -i
免密切换为 root。
NOTE
执行任何文件操作前,请核实当前用户身份,避免文件权限混乱。
如何传输文件到开发机?
如果习惯使用命令行,可使用 scp
或 sftp
传输文件到开发机。
如果需要图形界面,可参考教程 如何使用 FileZilla 管理开发机内的文件。
如何从公网访问开发机内的服务?
开发机内服务往往只监听了内网地址,无法直接从公网访问。如遇到演示、测试等临时性场景,可能需要从公网访问开发机内服务。这时,我们可以利用 SSH 端口转发功能,将云服务器内网端口映射到本地电脑,从而实现访问。
详细操作步骤,可参考教程 如何从公网访问开发机内的服务。