任务体验教程
跟随我们的体验教程,使用 Spot 资源快速部署一个模型训练任务,并观察任务的运行情况。
NOTE
- 快速体验使用了 Spot 资源和预置镜像。
什么是 Spot 资源实例?
Spot 资源实例是一种利用闲置计算资源的虚拟实例,基于 Kubernetes 的 Spot 概念。具有以下特点:
- 资源抢占: 当需要回收闲置资源时,Spot 实例会被终止。
- 不保证可用性: Spot 实例不能保证一直可用,可能会被随时终止。
IMPORTANT
Spot 实例不保证可用性,暂不提供持久化存储。
创建训练任务
直接访问智算云控制台的创建训练任务页面。
进入创建页面后,请根据页面提示,完成以下配置。
规格信息:指定资源类型为 Spot。免费用户实例规格仅限 1 种,实例数量仅限 1 个。
基础配置:请根据下方要求填写:
镜像:选择预置镜像,选择
infini-ai-dev/deepspeed:0.8.3-pytorch1.12-cuda11.8-centos7.6
。启动命令:填写体验专用镜像的镜像的启动命令,其中包含了参数和环境配置。
bashexport NCCL_SOCKET_IFNAME=eth0 cd /tmp/Megatron-DeepSpeed sed -i 's/NLAYERS=30/NLAYERS=10/g' train/7B1_test.sh sed -i 's/TRAIN_SAMPLES=220_000/TRAIN_SAMPLES=220_00/g' train/7B1_test.sh NPROCS_PER_NODE=1 bash train/7B1_test.sh 127.0.0.1 23456 1 0 ${NPROCS_PER_NODE}
基本信息:填写训练任务名称。描述可留空。
查看训练任务日志
访问智算云控制台的任务页面,如果您创建的训练任务进入运行中,表示训练任务已部署成功,可以查看日志。打开任务详情中的任务日志可以查看到任务的运行情况。