使用弹性资源创建开发机
本文将介绍如何使用弹性资源创建开发机。
TIP
本文描述了自定义购买模式。相对于智算云平台的 AI 算力市场购买页,提供更多的配置选项,包括「SSH 公钥」、「Docker 容器」等。
什么是按量付费型开发机
在传统实验室环境中,GPU 开发者共享裸金属服务器上的 GPU 资源主要面临以下痛点:
- 😠 沟通不畅与资源冲突:在共享服务器上需要预约使用 GPU,资源有限导致冲突,影响开发进度。
- 😠 代码管理混乱与性能不稳:环境不一致、版本控制复杂,导致协作困难,模型训练效率低下。
使用 AIStudio 开发机,即时租用所需数量的 GPU 算力。灵活的租用方式,结合预置的标准化开发环境,不仅解决了环境不一致和代码管理混乱的问题,还可以自由调整硬件配置,无需预先安排,显著减少了沟通成本和时间延误,实现了成本与效率的最佳平衡。
准备工作
规格与性能
按量付费型开发机提供多种配置,可用于入门级开发和模型训练,也可满足复杂深度学习任务或其他高性能需求。以下是目前可供租用的开发机列表,包括硬件规格和价格:
算力规格 | 总显存 | CPU | 内存 | 持久化存储 | 可用区 | 价格 |
---|---|---|---|---|---|---|
NVIDIA-4090-24GB × 1 | 24 GB | 14 核 | 28 GB | 50GB 系统盘 + 20GB 云盘 | 广东B | 2.09 元/小时 |
NVIDIA-4090-24GB × 2 | 48 GB | 28 核 | 56 GB | 50GB 系统盘 + 20GB 云盘 | 广东B | 4.18 元/小时 |
NVIDIA-4090-24GB × 4 | 96 GB | 56 核 | 112 GB | 50GB 系统盘 + 20GB 云盘 | 广东B | 8.36 元/小时 |
NVIDIA-4090-24GB × 8 | 192 GB | 112 核 | 224 GB | 50GB 系统盘 + 20GB 云盘 | 广东B | 16.72 元/小时 |
NVIDIA-A100-40GB × 1 | 40 GB | 10 核 | 86 GB | 50GB 系统盘 + 20GB 云盘 | 江苏A | 4.81 元/小时 |
NVIDIA-A100-40GB × 2 | 80 GB | 20 核 | 172 GB | 50GB 系统盘 + 20GB 云盘 | 江苏A | 9.62 元/小时 |
NVIDIA-A100-40GB × 4 | 160 GB | 40 核 | 344 GB | 50GB 系统盘 + 20GB 云盘 | 江苏A | 19.24 元/小时 |
NVIDIA-A100-40GB × 8 | 320 GB | 80 核 | 688 GB | 50GB 系统盘 + 20GB 云盘 | 江苏A | 38.48 元/小时 |
充值
如果您是独立开发者,为保证体验流程顺畅,建议您先确保账户余额充足。
TIP
无问芯穹新老用户均可领取 50 元代金券,直接抵扣消费金额。
创建开发机
点击下方链接,直接访问智算云控制台的创建开发机页面。
Step 0 选择算力规格
进入创建页面后,先完成「规格信息」配置。选择弹性资源。平台会列出当前公开售卖的弹性算力资源规格和单价。
NOTE
- 算力资源一般按单个 GPU 型号的数量分为 1、2、4、8 卡四种「算力规格」,配备不同的 CPU 核数与内存。您只能按 AIStudio 预定义的规格使用算力。
- 共享内存 不可修改,具体是指开发机的
/dev/shm
分区大小,当前为「规格」内存的一半。共享内存(shared memory)允许不同进程可以访问同一块内存区域以实现数据共享和交互。
Step 1 配置开发环境
在「基础配置」区域,需要完成开发机的「镜像」「公钥」等配置。
镜像:选择预置镜像,展开下拉菜单。如果您从裸金属服务器迁移到 AIStudio 开发机,您可以先尝试使用 Ubuntu 基础镜像,或含 Pytorch 的 NGC 镜像。
NOTE
容器镜像就「像」一个轻量级虚拟机的模板,其中包含了运行某个应用程序所需的依赖项,包括代码、运行时环境、库和配置文件。
公钥:即 SSH 公钥,在 SSH 远程登录到 AIStudio 开发机时,可使用 SSH 公钥进行认证,无需输入密码。在开发机每次启动时,平台会检查开发机
~/.ssh/authorized_keys
文件,并自动注入「SSH 公钥管理」中已添加的 SSH 公钥。如需帮助,参考 SSH 远程登录。SSH 登录密码: 启用后,平台自动生成初始密码。在 SSH 远程登录到 AIStudio 开发机时,如无 SSH 密钥认证,可通过密码认证。后续可自助修改密码(仅限开发机创建者修改)。
Docker 容器:高级功能,初次体验时建议保持关闭。开启后,可以在开发机内使用
docker pull
、docker run
等命令构建镜像、启动容器等。详见 Docker 功能。
NOTE
- 使用弹性资源的开发机仅可使用预置镜像。如需使用自定义镜像仓库,需购买包年包月资源。
- 平台预置了 Ubuntu 基础镜像和 Pytorch、NGC、CUDA 等镜像。详见镜像中心。
Step 2 配置存储
「存储配置」区域列出了当前开发机的存储配置。默认配置为「系统盘」50 GiB 和「云盘」20 GiB。
- 系统盘: 开发机
/
目录的存储大小,固定 50GiB,支持持久化保存。 - 云盘: 按量付费型开发机免费提供 20 GiB 的云盘,挂载在
/datadisk
下,支持持久化保存。详见云盘。NOTE
暂仅支持 A100 机型。暂仅支持在创建开发机扩大云盘容量,如需更大云盘容量,请务必在创建开发机规划好云盘容量,并选择需要扩容。后续将支持付费扩容已有云盘。
- 共享高性能存储:仅限单独购买高性能存储到租户使用,开发机可挂载租户购买的共享高性能存储。如未购买高性能存储,无需修改。详见共享高性能存储。
Step 3 填写基本信息
- 名称:1~64 个字符,支持中英文数字以及- _,允许重复,名称不唯一。
- 描述:添加描述或者备注,长度 1~400 个字符,可留空。
完成表单配置后,点击确认创建。如果余额充足,开发机会依此进入创建流程。您可以在列表中查看状态。
登录开发机
开发机创建成功后,会进入运行中状态,并带有「弹性」标识。您可以登录开发机进行体验。右侧还提供了查看详情、更改开发机配置等快捷操作。
点击智算云平台 Web UI 的登录按钮,可从浏览器端登录开发机,打开 Web Terminal 界面。
NOTE
Web Terminal 提示文案仅为示例,请以实际 Web Terminal 显示为准。
后续步骤
- SSH 远程登录
- VSCode 远程连接开发机
- 使用
scp
或sftp
上传与下载文件。 - 使用 rsync 传输数据到开发机
- 使用 Filezilla 客户端进行文件传输
- 安装 File Browser 通过 Web 界面管理文件
- 使用国内镜像加速安装 PyTorch
- 获取系统级 CUDA / cuDNN 环境
- 使用预置的 Miniconda
- 安装 Jupyter lab
- 科学安装 Ollama
更多使用技巧,可参考教程与实践。