Skip to content

开发机管理

开发机是 AI Studio 中用于在线编译、调试代码和模型开发的模块。

功能亮点

  • 持久化系统盘:免费提供 50G 系统盘存储,开发机关机、重启后仍保存开发环境。
  • 公网访问:支持公网通过 SSH 远程访问开发机。
  • 高可靠文件存储:可挂载租户下的共享高性能存储,采用多副本机制,确保数据安全可靠。
  • Docker 友好:在开发机内也可以使用 Docker 命令创建容器,推送镜像。
  • 资源友好:关机后,平台会释放开发机的算力资源,确保算力高效利用。

生命周期

开发机列表页面会展示开发机在生命周期中的状态。

IMPORTANT

开发机再次启动时会重新进入资源准备中状态。如果此时计算资源不足,可能会长时间等待资源。

针对资源准备中运行中的开发机,开发机列表页面直接展示处于该状态的时长。如需详情,可使用事件监控

开发机进入部署中状态后,将会执行一系列耗时的子操作。如果进度长期停留在部署中状态,建议查看详细部署进度。详见追踪部署进度

基本操作

访问智算云控制台的开发机列表页面,可对开发机进行增、删、查、开机、关机等操作。

alt text

页面默认展示当前用户的开发机列表,可切换为展示当前租户下全部开发机。名称和 ID 支持模糊搜索。状态、资源池、创建者等字段支持筛选。时间字段支持排序。

  • 创建开发机:详细步骤参见创建开发机
  • 登录开发机:在开发机列表中右侧操作栏中,点击直接登录开发机的 Web Terminal。
  • 停止开发机:在开发机列表中右侧操作栏中。关机操作需二次确认。
  • 启动开发机:在开发机列表中右侧操作栏中。启动已经停止的开发机。
  • 删除开发机:在开发机列表中右侧操作栏中。删除操作需二次确认。
  • 查看开发机详情:在开发机列表中右侧操作栏中,点击进入详情页面。可查看基本信息、资源规格和挂载的文件存储,监控数据。

DANGER

执行关机操作前,请确保开发机没有正在往共享高性能存储写入数据。正在写入的数据会在关机过程中被删除。

存储资源

在使用开发机的过程中,需要在开发机中安装软件、存储代码等。为了避免您的开发环境在关机后丢失,智算云平台为开发机的系统盘(/ 分区)提供了免费的持久化存储,上限 50 GiB。

如果需要更多存储空间,请使用共享高性能存储。您可以在创建开发机时创建挂载点,向文件存储中读写数据。

IMPORTANT

如果开发机已启用 Docker 功能,请注意开发机内部容器的系统盘不支持持久化,上限为 100 GiB。

登录开发机

开发机进入运行中状态后,您可以登录开发机。

Web Terminal

智算云平台支持通过 Web UI 直接登录开发机。在开发机列表页面,点击右侧操作列的登录按钮,从网页访问智算云平台的 Web Terminal 界面。

alt text

SSH 远程登录

智算云平台在创建开发机时会生成随机端口的 SSH 地址。进入开发机详情页面,可复制 SSH 地址。

SSH 远程登录仅在已添加 SSH 公钥的情况下可用。

alt text

NOTE

如果您未在创建开发机时添加公钥,可通过 Web Terminal 登录开发机添加公钥。 以下仅简述步骤:

  1. 在本地创建 SSH 密钥对,复制公钥。
  2. 登录开发机,添加公钥:echo 'your_public_key' >> ~/.ssh/authorized_keys
  3. 重启 SSH 服务: service ssh restart

事件监控

智算云平台会记录开发机在生命周期中的所有事件,可在开发机详情页面点击查看事件

alt text

TensorBoard

  • 如果您在训练过程中保存了 TensorBoard 日志,那么在任务结束后,您可以通过开发机来查看可视化结果​。
  • 您需要在开发机内启动 TensorBoard 服务,输入命令 tensorboard --logdir /mnt/xxxxx​,然后打开开发机详情页的 TensorBoard 地址,即可查看可视化结果。