使用弹性资源创建开发机
本文将介绍如何使用弹性资源创建开发机。
提示
本文描述了自定义购买模式。与从智算云平台的 AI 算力市场快速创建开发机相比,提供更多的配置选项,包括「SSH 公钥」、「Docker 容器」等。
什么是按量付费型开发机
在传统实验室环境中,GPU 开发者共享裸金属服务器上的 GPU 资源主要面临以下痛点:
- 😠 沟通不畅与资源冲突:在共享服务器上需要预约使用 GPU,资源有限导致冲突,影响开发进度。
- 😠 代码管理混乱与性能不稳:环境不一致、版本控制复杂,导致协作困难,模型训练效率低下。
使用 AIStudio 开发机,即时租用所需数量的 GPU 算力。灵活的租用方式,结合预置的标准化开发环境,不仅解决了环境不一致和代码管理混乱的问题,还可以自由调整硬件配置,无需预先安排,显著减少了沟通成本和时间延误,实现了成本与效率的最佳平衡。
准备工作
规格与性能
按量付费型开发机提供多种配置,可用于入门级开发和模型训练,也可满足复杂深度学习任务或其他高性能需求。
充值
如果您是独立开发者,为保证体验流程顺畅,建议您先确保账户余额充足。
存储资源
使用弹性资源创建的 AIStudio 开发机可使用以下类型存储资源。
- 系统盘:免费提供 50 GiB 持久化系统盘(挂载在
/
下),所有开发机均享有该免费容量。 - 云盘:免费提供 20GiB 免费额度。云盘为按量付费型开发机专用附加存储,仅在创建开发机可购买扩充容量。云盘非共享存储,仅限所属开发机访问和使用。
- 共享高性能存储:租户可额外购买共享高性能存储。可挂载至的不同实例中。容器实例间共享,可以多点读写,不受实例释放的影响。
提示
如需购买共享高性能存储,请联系商务或售后服务。
创建开发机
点击下方链接,直接访问智算云控制台的创建开发机页面。
Step 0 选择算力规格
进入创建页面后,先完成「规格信息」配置。选择弹性资源。平台会列出当前公开售卖的弹性算力资源规格和单价。
注意
- 算力资源一般按单个 GPU 型号的数量分为 1、2、4、8 卡四种「算力规格」,配备不同的 CPU 核数与内存。您只能按 AIStudio 预定义的规格使用算力。
- 共享内存 不可修改,具体是指开发机的
/dev/shm
分区大小,当前为「规格」内存的一半。共享内存(shared memory)允许不同进程可以访问同一块内存区域以实现数据共享和交互。
Step 1 配置开发环境
在「基础配置」区域,需要完成开发机的「镜像」「公钥」等配置。
镜像:选择预置镜像,展开下拉菜单。如果您从裸金属服务器迁移到 AIStudio 开发机,您可以先尝试使用 Ubuntu 基础镜像,或含 Pytorch 的 NGC 镜像。
预置镜像列表 注意
容器镜像就「像」一个轻量级虚拟机的模板,其中包含了运行某个应用程序所需的依赖项,包括代码、运行时环境、库和配置文件。
公钥:即 SSH 公钥,在 SSH 远程登录到 AIStudio 开发机时,可使用 SSH 公钥进行认证,无需输入密码。在开发机每次启动时,平台会检查开发机
~/.ssh/authorized_keys
文件,并自动注入「SSH 公钥管理」中已添加的 SSH 公钥。如需帮助,参考 SSH 远程登录。SSH 登录密码: 启用后,平台自动生成初始密码。在 SSH 远程登录到 AIStudio 开发机时,如无 SSH 密钥认证,可通过密码认证。后续可自助修改密码(仅限开发机创建者修改)。
Docker 容器:开启后,可以在开发机内使用
docker pull
、docker run
等命令构建镜像、启动容器等。详见 Docker 功能。
注意
平台预置了 Ubuntu 基础镜像和 Pytorch、NGC、CUDA 等镜像。也可以使用自定义镜像。详见镜像中心。
Step 2 配置存储
「存储配置」区域列出了当前开发机的存储配置。默认配置为「系统盘」50 GiB 和「云盘」20 GiB。
- 系统盘: 开发机
/
目录的存储大小,固定 50GiB,支持持久化保存。 - 云盘: 按量付费型开发机免费提供 20 GiB 的云盘,挂载在
/datadisk
下,支持持久化保存。详见云盘。注意
暂仅支持在创建开发机扩大云盘容量,如需更大云盘容量,请务必在创建开发机规划好云盘容量,并选择需要扩容。后续将支持付费扩容已有云盘。
- 共享高性能存储:仅限单独购买高性能存储到租户使用,开发机可挂载租户购买的共享高性能存储。如未购买高性能存储,无需修改。详见共享高性能存储。
Step 3 外网配置
如果在开发机内运行的服务提供 Web UI,可在 Web 应用预览区域填写需要代理的端口号,后续从开发机详情中可直接跳转预览页面。
该功能要求在开发机内启动服务时,绑定到所有网络接口(0.0.0.0
)。其他要求详见 Web 应用预览。
Step 4 填写基本信息
- 名称:1~64 个字符,支持中英文数字以及- _,允许重复,名称不唯一。
- 描述:添加描述或者备注,长度 1~400 个字符,可留空。
完成表单配置后,点击确认创建。如果余额充足,开发机会依此进入创建流程。您可以在列表中查看状态。
登录开发机
开发机创建成功后,会进入运行中状态,并带有「弹性」标识。您可以登录开发机进行体验。右侧还提供了查看详情、更改开发机配置等快捷操作。
点击智算云平台 Web UI 的登录按钮,可从浏览器端登录开发机,打开 Web Terminal 界面。
注意
Web Terminal 提示文案仅为示例,请以实际 Web Terminal 显示为准。
常见问题
弹性算力资源是如何被使用的?
您购买的弹性算力资源将直接用于创建按量付费型开发机。例如,租户购买的弹性算力资源为 NVIDIA A100 80G 显存 * 8,则平台将直接创建一个配置为 8 个 NVIDIA A100 的开发机,并开始按量计费。
弹性算力资源暂仅限于创建按量付费型开发机。不可用于推理服务、任务等其他服务模块。
如何 SSH 远程登录?
详见 SSH 远程登录。
如何科学上网?
智算云平台不提供科学上网方式,但针对 Huggingface、GitHub、下载 Pytorch、安装 Ollama 等情况介绍部分可选替代方案。
详见「常见问题排查」中的 如何科学上网。
如何变更开发机配置?
如需变更开发机的负载规格(CPU、GPU、内存)、镜像等配置,可直接使用「改配」功能,无需重复创建开发机。开发机改配后将先进入清理中状态,随后开始重新部署。详见变更开发机配置。
如何使用 root 身份登录?
开发机默认使用 root
。
部分旧版实例仍默认使用非 root 普通用户名登录,重启后将自动更新。如暂时无法停止开发机,可使用 sudo -i
免密切换为 root。
注意
执行任何文件操作前,请核实当前用户身份,避免文件权限混乱。
如何传输文件到开发机?
如果习惯使用命令行,可使用 scp
或 sftp
传输文件到开发机。
如何预览开发机上运行的 Web 应用?
在开发机运行带 GUI 的 Web 服务时,通过配置 Web 应用预览端口,可以实现直接从智算云平台打开预览页面。详见预览开发机上运行的 Web 应用。
如何从公网访问开发机内的服务?
开发机内服务往往只监听了内网地址,无法直接从公网访问。如遇到演示、测试等临时性场景,可能需要从公网访问开发机内服务。这时,我们可以利用 SSH 端口转发功能,将云服务器内网端口映射到本地电脑,从而实现访问。