预置存储
智算云平台为每个容器提供了预置存储,为容器运行提供基础存储空间。
系统盘
系统盘是容器根文件系统存储(rootfs),开发机配备了 100GiB 系统盘存储空间,推理服务、任务服务的容器实例均配备了 50GiB 系统盘存储空间。
- 开发机:AIStudio 为开发机提供了系统盘(rootfs),默认提供 100GiB 存储空间。开发机的系统盘提供持久化存储,开发机关机、重启后仍保存开发环境和数据。开发机删除后,系统盘存储空间将被清理。
- 任务:AIStudio 为任务的每个 Worker 默认提供 50 GiB 的 rootfs 存储空间。任务结束后,Pod 不会保留,容器系统盘存储空间将被清理。
- 推理服务:AIStudio 为推理服务的每个 Worker 默认提供 50 GiB 的 rootfs 存储空间。推理服务结束后,Pod 不会保留,容器系统盘存储空间将被清理。
查看系统盘使用情况
为确保容器正常运行,请确保系统盘空间始终有空闲。
使用 df -h / 命令可查看系统盘(rootfs)的用量信息:
root@is-dazzy7xv2ymalks7-devmachine-0:~# df -h /
Filesystem Size Used Avail Use% Mounted on
overlay 50G 628M 50G 2% /如果您购买的使用弹性资源的按量付费型开发机,可直接前往开发机详情页查看系统盘用量。
注意
推荐使用云盘、共享高性能存储等扩充存储。详见扩充存储。
/tmp 路径
开发机的 /tmp 路径下的内容会在关机时清除。
常见问题
开发机系统盘是指哪个目录/路径?
开发机的系统盘指的是容器的 根目录 /。
在 AIStudio 开发机中,挂载在根目录 / 上的文件系统(即 OverlayFS)就是您的系统盘。这意味着,除非某个子目录被特殊挂载(如内存盘或外部存储卷)覆盖,否则根目录下的所有子目录和文件都属于系统盘,且具备持久化能力。
那么系统盘包含哪些内容?只要不属于特殊挂载点,以下常见路径的数据都存储在系统盘上,重启或关机后均会保留:
/root:默认的用户主目录(存放代码、脚本、模型权重的主要位置)。/home:普通用户的主目录。/usr和/opt:您通过apt或pip安装的软件库、依赖包通常安装在这里。/etc**:大部分系统配置文件(注意/etc/nvidia等特定驱动目录除外)。
以下这些目录也在 / 下面,但它们被其他文件系统覆盖了,不属于系统盘:
/dev、/etc/hosts、/proc/driver/nvidia等使用 tmpfs 文件系统的路径。/opt/aeon/docker等特殊目录(一般为只读)- 扩充存储挂载路径(如有),例如云盘使用
/datadisk;共享高性能存储卷的挂载路径由用户在创建开发机时指定。
root@is-db6pld5naekptdjd-devmachine-0:~# df -h
Filesystem Size Used Avail Use% Mounted on
overlay 100G 36M 100G 1% / <-- 这就是您的系统盘
tmpfs 64M 0 64M 0% /dev
tmpfs 29G 0 29G 0% /dev/shm
/dev/sdb 3.5T 689G 2.9T 20% /etc/hosts
tmpfs 493G 70M 493G 1% /opt/mizar
/dev/mapper/ubuntu--vg-ubuntu--lv 437G 121G 297G 29% /opt/aeon/docker
tmpfs 51G 54M 51G 1% /run/aeon/container
tmpfs 493G 12K 493G 1% /run/secrets/kubernetes.io/serviceaccount
tmpfs 252G 12K 252G 1% /proc/driver/nvidia
tmpfs 252G 4.0K 252G 1% /etc/nvidia/nvidia-application-profiles-rc.d
tmpfs 252G 0 252G 0% /proc/acpi
tmpfs 252G 0 252G 0% /proc/scsi
tmpfs 252G 0 252G 0% /sys/firmware如果您担心系统盘(100G)空间不足,请购买扩充存储,将大数据集、模型等与系统盘分开储存。
开发机系统盘写满后会怎么样?
平台将在开发机启动时检测系统盘存储余量。如果存储余量极少,您将在 Web Terminal 或 SSH 登录界面看到存储空间不足的提醒。
如果开发机的系统盘被写满,平台将限制开发机的功能。您可能无法使用 SSH 登录到开发机。请从 Web Terminal 访问开发机,清理系统盘空间。
开发机系统盘 100GiB 不够怎么办?
您无法主动修改开发机系统盘容量。如果系统盘 100GiB 无法满足需求,请参考以下选项:
- 使用按量付费开发机:如果您使用以卡时计费的开发机,可获取 20 GiB 的免费云盘存储空间。如果仍不足,可在创建开发时购买云盘扩容容量。
- 使用包年包月资源创建的开发机: 购买共享高性能存储。
开发机的系统盘支持扩容吗?
开发机的 rootfs 文件系统容量固定为 100GiB,不支持扩容。
任务 Worker 和推理服务实例的系统盘数据会保存吗?
不会,任务和推理服务的 50 GiB 本地存储不支持持久化,重启后数据会丢失。
系统盘被清除了是怎么回事?
首先,您需要区分当前使用的平台服务。
开发机的系统盘支持持久化存储(不包括 /tmp 目录),正常的实例重启、停止不会清除系统盘。但以下几种情况例外:
- 开发机关机超过 30 天。
- 用户对开发机进行改配操作,并自主清空系统盘。
任务、推理服务 的系统盘是临时的、非持久化存储。实例重启、停止后,其中的数据会被自动清除。强烈建议不要依赖任务、推理服务的系统盘作为存储媒介。推荐以下做法:
- 将训练、推理依赖的软件环境固化,并制作为自定义镜像,在每次启动训练、推理服务时,指定使用该镜像。这样可以保证每次运行时的软件依赖项高度一致。建议使用合理手段精简镜像体积,保证镜像可快速拉取,容器快速启动。
- 对于训练、推理依赖的代码、模型权重、数据集等文件,建议提前通过开发机或 AICoder 下载至共享高性能存储的存储卷中。在每次启动训练、推理服务时,指定挂载这些存储卷,保证容器本身的轻量化。