Skip to content

任务概述

您可以在 AIStudio 中使用计算资源运行训练任务和离线推理任务。

NOTE

  • 运行训练任务需要计算资源。请联系无问芯穹购买计算资源。
  • 运行训练任务需要访问训练所需的代码、模型文件和数据集。您可以从公网拉取,也可以挂载智算云平台的共享高性能存储。如需购买共享高性能存储,请联系无问芯穹。

功能亮点

  • 资源池化:任务结束后平台会释放计算资源,大幅提升资源利用率。
  • 操作简单:简单配置计算资源规格、镜像、存储等参数后即可发起单机或分布式训练任务。
  • 分布式训练:预置分布式框架,支持 PyTorchDDP 和 MPI。
  • 共享高性能存储:共享高性能存储每 10 TB 可提供 30k IOPS,上限 1 亿文件。
  • 可视化日志:预置 TensorBoard,可对训练过程中保存的 TensorBoard 日志进行可视化。

生命周期

任务分为单机训练任务和分布式训练任务,可能使用一到多个 Worker。任务有自己的生命周期,任务生命周期的状态可在智算云平台的任务列表页面查看。

NOTE

  • Worker 是运行任务负载的最小单元。任务停止、成功、失败后均不会保留 Worker,但任务记录、资源监控数据和任务日志可保留 30 天。
  • 平台会记录任务生命周期内发生的重要事件,可在任务详情页查看事件。
  • 任务进入部署中状态后,将会执行一系列耗时的子操作。如果任务长期停留在部署中状态,建议查看详细部署进度。详见追踪任务的部署进度
  • 上图未体现任务生命周期中的恢复中清理中状态。「恢复中」表示任务中有 Worker 正在重启,适用于已开启容错的任务。「清理中」表示任务已无法正常运行,正在停止 Worker。

基本操作

任务列表页面提供了增、删、查、停止、启动等操作。页面默认展示当前用户的任务列表,可切换为展示当前租户下全部任务。名称和 ID 支持模糊搜索。状态、资源池、创建者等字段支持筛选。时间字段支持排序。

alt text

  • 创建任务:详细步骤参见创建任务
  • 克隆任务:在任务列表中右侧操作栏中,点击可快速复制已有任务配置,修改后再提交。
  • 监控任务:在任务列表中右侧操作栏中,点击可跳转至任务的资源监控视图。
  • 查看任务日志:在任务列表中右侧操作栏中,点击可跳转至任务日志视图。
  • 停止任务:在任务列表中右侧操作栏中。停止操作需二次确认。任务停止后,底层资源释放,但您仍可查看任务详情、监控、日志。
  • 启动任务:在任务列表中右侧操作栏中。如果需要在上次停止的节点重新启动任务,请您在代码中加入对 ckpt 的处理。​
  • 删除任务:在任务列表中右侧操作栏中。删除操作需二次确认。删除后不可恢复。
  • 查看任务详情:在任务列表中右侧操作栏中,点击进入详情页面。可查看基本信息、资源规格、挂载的文件存储、Worker 信息、任务日志、监控数据等。

事件监控

智算云平台会记录任务在生命周期中的所有事件,可在任务详情页面点击查看事件

alt text

任务可视化

AIStudio 支持对用户在训练过程中保存的 TensorBoard 日志进行可视化。任务的 TensorBoard 日志可视化需满足以下条件:

  • 创建任务时,已选择开启可视化服务,默认开启​。
  • 开启后,您需要在训练的代码中指定日志存入该路径,使用 summarywriter 方法,指定 log_dir 为文件存储挂载路径下的某一个路径​。
  • 只有运行中的任务能够查看可视化数据。

启用可视化功能后,可在任务列表页的右侧操作栏中找到可视化按钮

alt text