GenStudio 于 2025 年 5 月 推出 GenStudio 高级版/企业版升级服务,大幅提升 API 调用频率GenStudio 于 2025 年 5 月 推出 GenStudio 高级版/企业版升级服务,大幅提升 API 调用频率 ,依然保留免费基础服务了解计费
Skip to content

使用弹性资源创建开发机

本文将介绍如何使用弹性资源创建开发机。

提示

本文描述了自定义购买模式。与从智算云平台的 AI 算力市场快速创建开发机相比,提供更多的配置选项,包括「SSH 公钥」、「Docker 容器」等。

什么是按量付费型开发机

在传统实验室环境中,GPU 开发者共享裸金属服务器上的 GPU 资源主要面临以下痛点:

  • 😠 沟通不畅与资源冲突:在共享服务器上需要预约使用 GPU,资源有限导致冲突,影响开发进度。
  • 😠 代码管理混乱与性能不稳:环境不一致、版本控制复杂,导致协作困难,模型训练效率低下。

使用 AIStudio 开发机,即时租用所需数量的 GPU 算力。灵活的租用方式,结合预置的标准化开发环境,不仅解决了环境不一致和代码管理混乱的问题,还可以自由调整硬件配置,无需预先安排,显著减少了沟通成本和时间延误,实现了成本与效率的最佳平衡。

准备工作

规格与性能

按量付费型开发机提供多种配置,可用于入门级开发和模型训练,也可满足复杂深度学习任务或其他高性能需求。

充值

如果您是独立开发者,为保证体验流程顺畅,建议您先确保账户余额充足。

存储资源

使用弹性资源创建的 AIStudio 开发机可使用以下类型存储资源。

  • 系统盘:免费提供 50 GiB 持久化系统盘(挂载在 / 下),所有开发机均享有该免费容量。
  • 云盘:免费提供 20GiB 免费额度。云盘为按量付费型开发机专用附加存储,仅在创建开发机可购买扩充容量。云盘非共享存储,仅限所属开发机访问和使用。
  • 共享高性能存储:租户可额外购买共享高性能存储。可挂载至的不同实例中。容器实例间共享,可以多点读写,不受实例释放的影响。

提示

如需购买共享高性能存储,请联系商务或售后服务。

创建开发机

点击下方链接,直接访问智算云控制台的创建开发机页面。

Step 0 选择算力规格

进入创建页面后,先完成「规格信息」配置。选择弹性资源。平台会列出当前公开售卖的弹性算力资源规格和单价。

alt text

注意

  • 算力资源一般按单个 GPU 型号的数量分为 1、2、4、8 卡四种「算力规格」,配备不同的 CPU 核数与内存。您只能按 AIStudio 预定义的规格使用算力。
  • 共享内存 不可修改,具体是指开发机的 /dev/shm 分区大小,当前为「规格」内存的一半。共享内存(shared memory)允许不同进程可以访问同一块内存区域以实现数据共享和交互。

Step 1 配置开发环境

在「基础配置」区域,需要完成开发机的「镜像」「公钥」等配置。

alt text

  1. 镜像:选择预置镜像,展开下拉菜单。如果您从裸金属服务器迁移到 AIStudio 开发机,您可以先尝试使用 Ubuntu 基础镜像,或含 Pytorch 的 NGC 镜像。

    Screenshot of the sidebar
    预置镜像列表

    注意

    容器镜像就「像」一个轻量级虚拟机的模板,其中包含了运行某个应用程序所需的依赖项,包括代码、运行时环境、库和配置文件。

  2. 公钥:即 SSH 公钥,在 SSH 远程登录到 AIStudio 开发机时,可使用 SSH 公钥进行认证,无需输入密码。在开发机每次启动时,平台会检查开发机 ~/.ssh/authorized_keys 文件,并自动注入「SSH 公钥管理」中已添加的 SSH 公钥。如需帮助,参考 SSH 远程登录

  3. SSH 登录密码: 启用后,平台自动生成初始密码。在 SSH 远程登录到 AIStudio 开发机时,如无 SSH 密钥认证,可通过密码认证。后续可自助修改密码(仅限开发机创建者修改)。

  4. Docker 容器:开启后,可以在开发机内使用 docker pulldocker run 等命令构建镜像、启动容器等。详见 Docker 功能

注意

平台预置了 Ubuntu 基础镜像和 Pytorch、NGC、CUDA 等镜像。也可以使用自定义镜像。详见镜像中心

Step 2 配置存储

「存储配置」区域列出了当前开发机的存储配置。默认配置为「系统盘」50 GiB 和「云盘」20 GiB。

alt text

  • 系统盘: 开发机 / 目录的存储大小,固定 50GiB,支持持久化保存。
  • 云盘: 按量付费型开发机免费提供 20 GiB 的云盘,挂载在 /datadisk 下,支持持久化保存。详见云盘

    注意

    暂仅支持在创建开发机扩大云盘容量,如需更大云盘容量,请务必在创建开发机规划好云盘容量,并选择需要扩容。后续将支持付费扩容已有云盘。

  • 共享高性能存储:仅限单独购买高性能存储到租户使用,开发机可挂载租户购买的共享高性能存储。如未购买高性能存储,无需修改。详见共享高性能存储

Step 3 外网配置

如果在开发机内运行的服务提供 Web UI,可在 Web 应用预览区域填写需要代理的端口号,后续从开发机详情中可直接跳转预览页面。

该功能要求在开发机内启动服务时,绑定到所有网络接口(0.0.0.0)。其他要求详见 Web 应用预览

Step 4 填写基本信息

  • 名称:1~64 个字符,支持中英文数字以及- _,允许重复,名称不唯一。
  • 描述:添加描述或者备注,长度 1~400 个字符,可留空。

完成表单配置后,点击确认创建。如果余额充足,开发机会依此进入创建流程。您可以在列表中查看状态。

登录开发机

​开发机创建成功后,会进入运行中状态,并带有「弹性」标识。您可以登录开发机进行体验。右侧还提供了查看详情、更改开发机配置等快捷操作。

alt text

点击智算云平台 Web UI 的登录按钮,可从浏览器端登录开发机,打开 Web Terminal 界面。

alt text

注意

Web Terminal 提示文案仅为示例,请以实际 Web Terminal 显示为准。

常见问题

弹性算力资源是如何被使用的?

您购买的弹性算力资源将直接用于创建按量付费型开发机。例如,租户购买的弹性算力资源为 NVIDIA A100 80G 显存 * 8,则平台将直接创建一个配置为 8 个 NVIDIA A100 的开发机,并开始按量计费。

弹性算力资源暂仅限于创建按量付费型开发机。不可用于推理服务、任务等其他服务模块。

如何 SSH 远程登录?

详见 SSH 远程登录

如何科学上网?

智算云平台不提供科学上网方式,但针对 Huggingface、GitHub、下载 Pytorch、安装 Ollama 等情况介绍部分可选替代方案。

详见「常见问题排查」中的 如何科学上网

如何变更开发机配置?

如需变更开发机的负载规格(CPU、GPU、内存)、镜像等配置,可直接使用「改配」功能,无需重复创建开发机。开发机改配后将先进入清理中状态,随后开始重新部署。详见变更开发机配置

如何使用 root 身份登录?

开发机默认使用 root

部分旧版实例仍默认使用非 root 普通用户名登录,重启后将自动更新。如暂时无法停止开发机,可使用 sudo -i 免密切换为 root。

注意

执行任何文件操作前,请核实当前用户身份,避免文件权限混乱。

如何传输文件到开发机?

如果习惯使用命令行,可使用 scpsftp 传输文件到开发机。

如何预览开发机上运行的 Web 应用?

在开发机运行带 GUI 的 Web 服务时,通过配置 Web 应用预览端口,可以实现直接从智算云平台打开预览页面。详见预览开发机上运行的 Web 应用

如何从公网访问开发机内的服务?

开发机内服务往往只监听了内网地址,无法直接从公网访问。如遇到演示、测试等临时性场景,可能需要从公网访问开发机内服务。这时,我们可以利用 SSH 端口转发功能,将云服务器内网端口映射到本地电脑,从而实现访问。

后续步骤