GenStudio LLM API 部分模型价格调整公告GenStudio LLM API 部分模型价格调整公告 ,新价格 2025 年 11 月 1 日生效调价公告
Skip to content

使用弹性资源创建开发机

本文将介绍如何使用弹性资源创建开发机。

提示

本文描述了自定义购买模式。与从智算云平台的 AI 算力市场快速创建开发机相比,提供更多的配置选项,包括「SSH 公钥」、「Docker 容器」等。

什么是按量付费型开发机

在传统实验室环境中,GPU 开发者共享裸金属服务器上的 GPU 资源主要面临以下痛点:

  • 😠 沟通不畅与资源冲突:在共享服务器上需要预约使用 GPU,资源有限导致冲突,影响开发进度。
  • 😠 代码管理混乱与性能不稳:环境不一致、版本控制复杂,导致协作困难,模型训练效率低下。

使用 AIStudio 开发机,即时租用所需数量的 GPU 算力。灵活的租用方式,结合预置的标准化开发环境,不仅解决了环境不一致和代码管理混乱的问题,还可以自由调整硬件配置,无需预先安排,显著减少了沟通成本和时间延误,实现了成本与效率的最佳平衡。

准备工作

规格与性能

按量付费型开发机提供多种 GPU 卡数量、型号配置。

充值

如果您是独立开发者,为保证体验流程顺畅,建议您先确保账户余额充足。

存储资源

使用弹性资源创建的 AIStudio 开发机可使用以下类型存储资源。

  • 系统盘:免费提供 100GiB 持久化系统盘(挂载在 / 下),所有开发机均享有该免费容量。
  • 云盘:免费提供 20GiB 免费额度。云盘为按量付费型开发机专用附加存储,仅在创建开发机可购买扩充容量。云盘非共享存储,仅限所属开发机访问和使用。
  • 共享高性能存储:租户可额外购买共享高性能存储。可挂载至的不同实例中。容器实例间共享,可以多点读写,不受实例释放的影响。

提示

  • 支持线上自助购买「广东B」可用区的共享高性能存储。详见管理共享高性能存储
  • 其他可用区共享高性能存储暂不支持线上购买,如需购买,请联系商务。

创建开发机

点击下方链接,直接访问智算云控制台的创建开发机页面。

Step 0 配置开发机规格信息

  1. 指定开发机的算力规格。

    • 资源类型:指定算力资源来源为 弹性资源
    • 规格:筛选 GPU 数量、型号、CPU 数量、内存符合要求的算力规格。平台将 8 卡 GPU 节点资源按 GPU 数量分为 1、2、4、8 卡四种「算力规格」,配备不同的 CPU 核数与内存。仅支持平台预定义的规格使用算力。

    alt text

    注意

    您可以查看当前 GPU 资源库存情况,并提前判断是否可启动多卡实例:

    • 规格列表中库存:平台会统计当前弹性资源池的 GPU 占用和分布情况,计算各算力规格剩余可启动数量。
    • 库存可能动态变化,如需查看最新库存状态,您可以点击规格列表右上角刷新库存按钮。
  2. 共享内存:不可修改,具体是指开发机的 /dev/shm 分区大小,当前为「规格」内存的一半。共享内存(shared memory)允许不同进程可以访问同一块内存区域以实现数据共享和交互。

  3. RDMA 配置: 如果所选规格的「训练网配置」为 RoCE 或 IB,可看到该附加配置项。RDMA 配置在规格为 8 卡时自动开启、小于 8 卡时自动关闭。您可以手动调整。注意, RoCE 网络下使用小于 8 卡规格时若开启 RDMA 配置,可能会造成问题。

Step 1 配置开发环境

在「基础配置」区域,需要完成开发机的「镜像」「公钥」等配置。

alt text

  1. 镜像:镜像包含了运行应用程序所需的所有代码、运行时、库和环境配置。

    • 平台预置了 Ubuntu 基础镜像和 Pytorch、NGC、CUDA 等镜像。详见镜像中心
    • 支持构建自定义镜像,并提供了 Dockerfile 示例。
    • 支持迁移外部镜像,可将本地已有镜像上传到租户私有镜像仓库,或通过镜像 URL 将镜像导入租户私有镜像仓库。
  2. 公钥:即 SSH 公钥,在 SSH 远程登录到 AIStudio 开发机时,可使用 SSH 公钥进行认证,无需输入密码。在开发机每次启动时,平台会检查开发机 ~/.ssh/authorized_keys 文件,并自动注入「SSH 公钥管理」中已添加的 SSH 公钥。如需帮助,参考 SSH 远程登录

  3. SSH 登录密码: 启用后,平台自动生成初始密码。在 SSH 远程登录到 AIStudio 开发机时,如无 SSH 密钥认证,可通过密码认证。后续可自助修改密码(仅限开发机创建者修改)。

  4. Docker 容器:开启后,可以在开发机内使用 docker pulldocker run 等命令构建镜像、启动容器等。详见Docker 功能

    注意

    如需管理开发机内 Docker 服务,需使用 dockerctl 命令,例如 dockerctl status。详见 Dockerctl

  5. 启动命令: 为开发机指定「启动命令」字段,让开发机在启动时自动执行特定命令(例如 conda activate),实现自定义初始化、环境验证或自动化任务。详见启动命令

Step 2 配置存储

「存储配置」区域列出了当前开发机的存储配置。默认配置为「系统盘」100GiB 和「云盘」20 GiB。

alt text

  • 系统盘: 开发机 / 目录的存储大小,固定 100GiB,支持持久化保存。详见系统盘

  • 云盘: 按量付费型开发机免费提供 20 GiB 的云盘,挂载在 /datadisk 下,支持持久化保存。详见云盘

    注意

    • 在创建开发机时可扩大云盘容量,如需更大云盘容量,请选择需要扩容,填写需要额外购买的容量大小。
    • 云盘为独立购买的开发机扩充存储产品,按容量持续计费(免费 20 GiB 不计费),与开发机状态无关。弹性开发机长期关机时,可考虑删除云盘,避免意外损失,详见扩充存储
  • 共享高性能存储:开发机可挂载租户购买的共享高性能存储。如未购买高性能存储,无需修改。详见共享高性能存储

    • 文件系统名称:选择租户在当前可用区的文件系统(租户在一个可用区一般仅一个文件系统)。
    • 存储卷:选择需要挂载的共享存储卷。
    • 挂载路径:指定该存储卷在实例内部的挂载路径。

    共享高性能存储配置项如下(表中为配置示例):

    文件系统名称存储卷名称与 ID挂载点(容器内访问路径)挂载权限
    广东B-默认高性能存储/public (vo-c7kcjqv2tjs5llry)/mnt/public公共读写

Step 3 外网配置

如果在开发机内运行的服务提供 Web UI,可在 Web 应用预览区域填写需要代理的端口号,后续从开发机详情中可直接跳转预览页面。

该功能要求在开发机内启动服务时,绑定到所有网络接口(0.0.0.0)。其他要求详见 Web 应用预览

Step 4 填写基本信息

  • 名称:1~64 个字符,支持中英文数字以及- _,允许重复,名称不唯一。
  • 描述:添加描述或者备注,长度 1~400 个字符,可留空。
  • 标签:可新建和绑定自定义标签。资源标签是一组键值对(Key-Value)。您可以通过标签从不同维度对一站式 AI 平台内的资源进行分类与聚合管理,用于按标签筛选等场景。详见标签管理

完成表单配置后,点击确认创建。如果余额充足,开发机会依此进入创建流程。您可以在列表中查看状态。

登录开发机

​开发机创建成功后,会进入运行中状态,并带有「弹性」标识。您可以登录开发机进行体验。右侧还提供了查看详情、更改开发机配置等快捷操作。

alt text

点击智算云平台 Web UI 的登录按钮,可从浏览器端登录开发机,打开 Web Terminal 界面。

alt text

注意

Web Terminal 提示文案仅为示例,请以实际 Web Terminal 显示为准。

常见问题

弹性算力资源是如何被使用的?

您购买的弹性算力资源将直接用于创建按量付费型开发机。例如,租户购买的弹性算力资源为 NVIDIA A100 80G 显存 * 8,则平台将直接创建一个配置为 8 个 NVIDIA A100 的开发机,并开始按量计费。

弹性算力资源暂仅限于创建按量付费型开发机。不可用于推理服务、任务等其他服务模块。

如何 SSH 远程登录?

详见 SSH 远程登录

如何科学上网?

智算云平台不提供科学上网方式,但针对 Huggingface、GitHub、下载 Pytorch、安装 Ollama 等情况介绍部分可选替代方案。

详见「常见问题排查」中的 如何科学上网

如何变更开发机配置?

如需变更开发机的负载规格(CPU、GPU、内存)、镜像等配置,可直接使用「改配」功能,无需重复创建开发机。开发机改配后将先进入清理中状态,随后开始重新部署。详见变更开发机配置

如何使用 root 身份登录?

开发机默认使用 root

部分旧版实例仍默认使用非 root 普通用户名登录,重启后将自动更新。如暂时无法停止开发机,可使用 sudo -i 免密切换为 root。

注意

执行任何文件操作前,请核实当前用户身份,避免文件权限混乱。

如何传输文件到开发机?

如果习惯使用命令行,可使用 scpsftp 传输文件到开发机。

如何预览开发机上运行的 Web 应用?

在开发机运行带 GUI 的 Web 服务时,通过配置 Web 应用预览端口,可以实现直接从智算云平台打开预览页面。详见预览开发机上运行的 Web 应用

如何从公网访问开发机内的服务?

开发机内服务往往只监听了内网地址,无法直接从公网访问。如遇到演示、测试等临时性场景,可能需要从公网访问开发机内服务。这时,我们可以利用 SSH 端口转发功能,将云服务器内网端口映射到本地电脑,从而实现访问。

后续步骤