任务概述
您可以在 AIStudio 中使用计算资源运行训练任务和离线推理任务。
NOTE
- 运行训练任务需要计算资源。请联系无问芯穹购买计算资源。
- 运行训练任务需要访问训练所需的代码、模型文件和数据集。您可以从公网拉取,也可以挂载智算云平台的共享高性能存储。如需购买共享高性能存储,请联系无问芯穹。
功能亮点
- 资源池化:任务结束后平台会释放计算资源,大幅提升资源利用率。
- 操作简单:简单配置计算资源规格、镜像、存储等参数后即可发起单机或分布式训练任务。
- 分布式训练:预置分布式框架,支持 PyTorchDDP 和 MPI。
- 共享高性能存储:共享高性能存储每 10 TB 可提供 30k IOPS,上限 1 亿文件。
- 可视化日志:预置 TensorBoard,可对训练过程中保存的 TensorBoard 日志进行可视化。
生命周期
任务分为单机训练任务和分布式训练任务,可能使用一到多个 Worker。任务有自己的生命周期,任务生命周期的状态可在智算云平台的任务列表页面查看。
NOTE
- Worker 是运行任务负载的最小单元。任务停止、成功、失败后均不会保留 Worker,但任务记录、资源监控数据和任务日志可保留 30 天。
- 平台会记录任务生命周期内发生的重要事件,可在任务详情页查看事件。
- 任务进入部署中状态后,将会执行一系列耗时的子操作。如果任务长期停留在部署中状态,建议查看详细部署进度。详见追踪任务的部署进度。
- 上图未体现任务生命周期中的恢复中、清理中状态。「恢复中」表示任务中有 Worker 正在重启,适用于已开启容错的任务。「清理中」表示任务已无法正常运行,正在停止 Worker。
基本操作
任务列表页面提供了增、删、查、停止、启动等操作。页面默认展示当前用户的任务列表,可切换为展示当前租户下全部任务。名称和 ID 支持模糊搜索。状态、资源池、创建者等字段支持筛选。时间字段支持排序。
- 创建任务:详细步骤参见创建任务。
- 克隆任务:在任务列表中右侧操作栏中,点击可快速复制已有任务配置,修改后再提交。
- 监控任务:在任务列表中右侧操作栏中,点击可跳转至任务的资源监控视图。
- 查看任务日志:在任务列表中右侧操作栏中,点击可跳转至任务日志视图。
- 停止任务:在任务列表中右侧操作栏中。停止操作需二次确认。任务停止后,底层资源释放,但您仍可查看任务详情、监控、日志。
- 启动任务:在任务列表中右侧操作栏中。如果需要在上次停止的节点重新启动任务,请您在代码中加入对 ckpt 的处理。
- 删除任务:在任务列表中右侧操作栏中。删除操作需二次确认。删除后不可恢复。
- 查看任务详情:在任务列表中右侧操作栏中,点击进入详情页面。可查看基本信息、资源规格、挂载的文件存储、Worker 信息、任务日志、监控数据等。
事件监控
智算云平台会记录任务在生命周期中的所有事件,可在任务详情页面点击查看事件。
任务可视化
AIStudio 支持对用户在训练过程中保存的 TensorBoard 日志进行可视化。任务的 TensorBoard 日志可视化需满足以下条件:
- 创建任务时,已选择开启可视化服务,默认开启。
- 开启后,您需要在训练的代码中指定日志存入该路径,使用 summarywriter 方法,指定
log_dir
为文件存储挂载路径下的某一个路径。 - 只有运行中的任务能够查看可视化数据。
启用可视化功能后,可在任务列表页的右侧操作栏中找到可视化按钮。