Skip to content

更新日志

本文件将记录 AIStudio 的所有重要更新。更新日志遵循 Keep a Changelog 格式。

变更类型如下:

  • 新增:了解新功能。
  • 更改:现有功能的更改。
  • 废弃:即将删除的功能。
  • 删除:已删除的功能。
  • 修复:修复任何错误。
  • 安全:安全改进。

AIStudio - 2024-07-24

新增

  • 开发机、任务 Worker 支持通过 df -h 命令查看当前租户共享高性能存储的真实配额。
  • 任务功能新增自检项目及相应日志。发起任务和任务失败后,输出环境检测的日志。您可以通过日志判断任务出错是否为机器硬件问题。
  • 任务容错功能支持进程重启、支持用户自定义最大容错次数。

变更

  • 开发机、任务 Worker、推理服务实例系统盘大小提升至 50GB。
  • 升级推理服务时,仅变更「最大不可用」配置可快速完成升级,不再触发 Worker 重启。
  • 任务功能增加两个任务状态:「恢复中」和「清理中」。「恢复中」表示任务中有 Worker 正在重启。「清理中」表示任务已无法正常运行,正在停止 Worker。

AIStudio - 2024-07-04

新增

  • 智算云平台支持用户自助完成实名认证。

变更

  • 使用开发机 Docker 功能时,开发机内部 Docker 容器不再独占显卡资源。开发机(主容器)可与内部容器共享显卡资源(旧版开发机如需支持该能力,需要关机再开机以完成更新)。

AIStudio - 2024-06-13

新增

  • 首次上线 AICoder。AI Coder 是无穹平台提供的一种灵活、高效的开发和管理工具。AI Coder 免费提供小规格的 CPU 实例资源,使用户能够在快速完成训练前的数据准备等任务。
  • 新增资源池管理功能。租户可查看名下所有资源池,可自助创建专属资源池,有效隔离和管理租户内的资源。
  • 任务功能支持容错能力。支持在训练前、训练中自动恢复。新建任务默认开启容错能力。
  • 任务功能提供更详细的 Worker 状态。用户在任务运行中时,进入详情页的刷新按钮获取最新 Worker 状态。
  • 推理服务功能支持查看各个实例的实时日志。默认展示第一个实例的日志,日志每 10s 采集一次。
  • 开发机、任务、推理服务功能支持查看「部署中」状态的详情进度。在进度长时间停滞在「部署中」状态时,可检查子操作进度并作进一步处理。

AIStudio - 2024-05-20

新增

  • AIStudio 首页(工作台)支持按资源池展示资源分配和使用情况。
  • 新增推理服务专用预置镜像,暂仅支持在创建推理服务时选用
    • inference-base:v1-vllm0.4.0-torch2.1-cuda12.3-ubuntu22.04
  • 推理服务支持升级,升级操作默认采取滚动更新机制,支持修改实例规格、镜像、文件存储等,同时支持回滚至历史版本。
  • 推理服务支持定时扩缩容,租户可设置每天或每周的固定时段内增减实例数量,有效管理服务容量,对应业务流量的变化,同时在资源使用上保持高效和节约。
  • 推理服务支持监控服务整体与实例级别的资源使用情况。如果使用指定预置镜像,还可以获取推理业务的性能表现、和流量变化等业务指标。
  • 任务的 worker 监控与开发机的监控中新增显卡功率监控图表,当前仅支持 Nvidia 显卡。
  • 开发机支持在容器内使用 nvidia-smi 获取使用 GPU 的进程列表。

修复

  • 修复了某些情况下开发机 rootfs 持久化失效的问题。
  • 修复了开发机内 dockerconfig 文件只读,导致无法从第三方仓库拉取镜像的问题。问题修复后,新创建的开发机可直接正常登录第三方镜像仓库。既有开发机在重启后正常登录第三方镜像仓库。

AIStudio - 2024-04-29

新增

  1. 镜像中心新增预置镜像,支持开发机、任务
    • Pytorch 24.03: cr.infini-ai.com/infini-ai/ngc:pytorch-24.03-py3
    • Ubuntu 22.04: cr.infini-ai.com/infini-ai/ubuntu:22.04-20240429

AIStudio - 2024-04-18

新增

  1. 推理服务支持克隆操作,可克隆现有服务,修改配置后再提交。
  2. 开发机、任务、推理服务列表页支持搜索、筛选、排序。其中名称和 ID 支持模糊搜索。状态、资源池、创建者等字段支持筛选。时间字段支持排序。
  3. 开发机列表页、任务列表页支持展示停留在「资源准备中」「运行中」状态的时长。
  4. 开发机详情页支持查看开发机生命周期的所有事件。

变更

  1. 创建开发机、任务时,支持删除全部挂载点。
  2. UX 体验改进。

AIStudio - 2024-03-29

新增

  1. 上线推理服务,您可以将训练好的模型部署成服务(当前仅支持内网访问该服务)。

更改

  1. 开发机的停止/启动操作文案变更为关机/开机。
  2. 开发机 SSH banner 中增加了更丰富的提示信息。

AIStudio - 2024-03-22

新增

  1. 上线镜像中心服务,您可以在镜像中心查询平台提供的预置镜像,也可以在平台构建自定义专属镜像。
  2. 任务的列表页面操作新增了查询日志的快捷入口。

更改

  1. 任务和开发机的状态图标新增颜色标识。

AIStudio - 2024-02-29

新增

  1. 新增支持手机号自助注册租户。
  2. 新增账号管理模块,可以给账号绑定手机号。
  3. 新增任务停止状态的原因展示。
  4. 新增任务 OOM 事件的展示。
  5. 变更用户密码登录方式,可以使用“用户名@租户名”和“密码”的方式登录,本次更新之前已经生成的用户名和租户名和密码依然有效。

修复

  1. 修复运行失败的任务无法重启的问题。
  2. 修复当任务完成阶段,短暂展示状态为“部署中”的问题。

AIStudio - 2024-02-07

新增

  1. 开发机持久化:停止开发机时会对开发机环境进行保存,重新启动时会以保存的环境启动开发机。同时,开发机 SSH Banner 也进行了更新。
  2. 开发机启动 docker 容器:更新后可以在开发机内启动docker容器,一旦启用,所有 GPU 资源都会被挂到 docker 容器内(暂不支持 docker 容器持久化)。
  3. 任务可视化:运行中的任务可以查看可视化数据(您需要在代码中保存可视化日志并在创建时告知我们您的日志保存路径),结束的任务需要前往开发机查看可视化数据。
  4. 任务监控:任务详情页面内新增支持在线查看资源监控数据。
  5. 任务日志:任务详情页面内新增支持在线查看任务日志。

AIStudio - 2024-01-23

新增

  1. 新增开发机和任务的监控功能,可以在详情页面查看。
  2. 新增任务可视化功能。

AIStudio - 2023-12-31

新增

  1. 首次发布一站式 AI 平台,支持开发机和任务。