Skip to content

任务体验教程(公测专用)

跟随我们的体验教程,使用 Spot 资源快速部署一个模型训练任务,并观察任务的运行情况。

NOTE

  • 快速体验使用了我们 Spot 资源和预置镜像。

什么是 Spot 资源实例?

Spot 资源实例是一种利用闲置计算资源的虚拟实例,基于 Kubernetes 的 Spot 概念。具有以下特点:

  • 资源抢占: 当需要回收闲置资源时,Spot 实例会被终止。
  • 不保证可用性: Spot 实例不能保证一直可用,可能会被随时终止。

IMPORTANT

Spot 实例不保证可用性,暂不提供持久化存储。

创建训练任务

直接访问智算云控制台的创建训练任务页面。

创建训练任务

进入创建页面后,请根据页面提示,完成以下配置。

  • 规格信息:指定资源类型为 Spot。在公测体验中,实例规格仅限 1 种,实例数量仅限 1 个。

  • 基础配置:请根据下方要求填写:

    • 镜像:选择预置镜像,选择 infini-ai-dev/deepspeed:0.8.3-pytorch1.12-cuda11.8-centos7.6

    • 启动命令:填写体验专用镜像的镜像的启动命令,其中包含了参数和环境配置。

      bash
      export NCCL_SOCKET_IFNAME=eth0
      cd /tmp/Megatron-DeepSpeed
      sed -i 's/NLAYERS=30/NLAYERS=10/g' train/7B1_test.sh
      sed -i 's/TRAIN_SAMPLES=220_000/TRAIN_SAMPLES=220_00/g' train/7B1_test.sh
      NPROCS_PER_NODE=1
      bash train/7B1_test.sh 127.0.0.1 23456 1 0 ${NPROCS_PER_NODE}
  • 基本信息:填写训练任务名称。描述可留空。

查看训练任务日志

访问智算云控制台的任务页面,如果您创建的训练任务进入运行中,表示训练任务已部署成功,可以查看日志。打开任务详情中的任务日志可以查看到任务的运行情况。