新老用户进群领券,100% 有券等你来冲!新老用户进群领券,100% 有券等你来冲! 体验按量付费开发机!立即领券
Skip to content

任务概述

AIStudio 平台支持从网页发起单机或大规模分布式训练任务。用户可通过直观的用户界面进行操作,大幅提高了易用性和便捷性。

NOTE

  • 运行训练任务需要计算资源。请联系无问芯穹购买计算资源。
  • 运行训练任务需要访问训练所需的代码、模型文件和数据集。您可以在训练时从公网拉取,也可以挂载智算云平台的共享高性能存储。如需购买共享高性能存储,请联系无问芯穹。

功能亮点

  • 操作友好:图形化操作界面,简单配置计算资源、镜像、存储后即可发起任务。
  • 快速迭代:网页界面允许快速调整参数、克隆、和重新运行任务,加速迭代和优化过程。
  • 资源管理:平台自动管理任务资源,任务结束后即释放资源,大幅提升资源利用率。
  • 分布式训练:预置分布式框架,支持 PyTorchDDP 和 MPI。
  • 共享高性能存储:共享高性能存储每 10 TB 可提供 30k IOPS,上限 1 亿文件。
  • 可视化日志:预置 TensorBoard,可对训练过程中保存的 TensorBoard 日志进行可视化。
  • 自动容错:训练前、失败后自动进行检测,自动重启进程或重调度至健康节点,提升训练成功率。

生命周期

任务分为单机训练任务和分布式训练任务,可能使用一到多个 Worker。任务有自己的生命周期,任务生命周期的状态可在智算云平台的任务列表页面查看。

NOTE

  • Worker 是运行任务负载的最小单元。任务停止、成功、失败后均不会保留 Worker,但任务记录、资源监控数据和任务日志可保留 30 天。
  • 平台会记录任务生命周期内发生的重要事件,可在任务详情页查看事件。
  • 任务进入部署中状态后,将会执行一系列耗时的子操作。如果任务长期停留在部署中状态,建议查看详细部署进度。详见追踪任务的部署进度
  • 上图未体现任务生命周期中的恢复中清理中状态。「恢复中」表示任务中有 Worker 正在重启,适用于已开启容错的任务。「清理中」表示任务已无法正常运行,正在停止 Worker。

基本操作

任务列表页面提供了增、删、查、停止、启动等操作。页面默认展示当前用户的任务列表,可切换为展示当前租户下全部任务。

alt text

管理操作按钮

  • 克隆:快速复制已有任务配置,修改后提交,可创建新任务。
  • 停止:停止操作需二次确认。任务停止后,底层资源释放,但您仍可查看任务详情、监控、日志。
  • 启动:可启动已停止和已失败的任务。如果需要在上次停止的 ckpt 重新启动任务,请您在代码中加入对 ckpt 的处理。​「运行成功」的任务如需再次运行,请使用重跑。
  • 重跑:重新运行任务,任务 ID 不变。支持在重跑前变更任务配置。
  • 删除:删除操作需二次确认。删除后不可恢复。

查看操作按钮

  • 详情:点击进入任务详情页面。可查看基本信息、资源规格、挂载的文件存储、Worker 信息、任务日志、监控数据等。
  • 监控:点击可跳转至任务的资源监控视图。
  • 日志:点击可跳转至任务日志视图。

查找任务

任务名称和 ID 支持模糊搜索。状态、资源池、创建者等字段支持筛选。时间字段支持排序。

创建任务

详细步骤可参见创建任务

自动容错

大模型训练任务规模大、时间长,需要尽可能避免一些偶发异常导致训练业务的中断。智算云平台提供了简单、易用的自动容错的能力,保障训练任务长期稳定运行。该能力默认开启,默认允许最多 1 次重启,最大可配置为 10 次。

  • 训练前检测:在任务开始前,平台将对参与训练的环境和资源进行全面的健康检测,包括镜像、存储权限与性能、文件路径、通信和分布式计算、GPU 可用性等,自动隔离故障节点,并自动重调度化健康节点,提升训练成功率。
  • 训练失败后检测:在任务失败后,平台自动执行故障检测,包括存储读写权限、存储速度、GPU 可用性、通信和分布式计算(具体到节点)。如果非硬件问题,将继续执行容错机制。

如果发生问题,您可以通过以上检测判断是否为平台问题。详见容错与排障

TIP

  • 请确保您的训练代码已实现自动保存最新的 Checkpoint,并以实现从最新的 Checkpoint 恢复训练。
  • 单次任务中 Worker 默认重启 1 次,最多可配置为 10 次,如果问题持续,任务将失败并结束。您可以通过平台一键上报任务 ID,联系无问芯穹进行排障。

事件监控与通知

智算云平台会记录任务在生命周期中的所有事件,可在任务详情页面点击查看事件

alt text

智算云平台已支持对任务生命周期内的事件发送飞书通知。详见配置飞书告警通知

任务可视化

AIStudio 支持对用户在训练过程中保存的 TensorBoard 日志进行可视化。任务的 TensorBoard 日志可视化需满足以下条件:

  • 创建任务时,已选择开启可视化服务,默认开启​。
  • 开启后,您需要在训练的代码中指定日志存入该路径,使用 summarywriter 方法,指定 log_dir 为文件存储挂载路径下的某一个路径​。
  • 只有运行中的任务能够查看可视化数据。

启用可视化功能后,可在任务列表页的右侧操作栏中找到可视化按钮

alt text