2024-11-21 一站式 AI 平台生日大派对!2024-11-21 一站式 AI 平台生日大派对! 无问芯穹特别推出多项超值福利!立即参与
Skip to content

更新日志

本文件将记录 AIStudio 的所有重要更新。更新日志遵循 Keep a Changelog 格式。

变更类型如下:

  • 新增:了解新功能。
  • 更改:现有功能的更改。
  • 废弃:即将删除的功能。
  • 删除:已删除的功能。
  • 修复:修复任何错误。
  • 安全:安全改进。

AIStudio - 2024-11-14

新增

  • 使用“共享资源”新建「开发机」时,允许指定需要运行开发机的资源节点。

更改

  • 开发机关机时,不再持久化保存 /tmp 目录。
  • 升级和克隆推理推理服务时,默认继承当前版本的”最大不可用“配置。
  • UX 优化:在展示日志时使用单宽字体等多项界面与体验优化。

AIStudio - 2024-10-24

新增

  • 新建「开发机」时,新增使用“共享资源”的选项。共享资源允许使用有限 GPU 资源创建多台开发机。租户需要提前利用包年包月资源创建共享资源池。
  • 推理服务支持在不停线上服务的情况下手动重建实例。在多实例的推理服务运行过程中,如果发现部分实例监控数据异常,可手动对实例进行单独的重启操作。
  • 新增展示负载排队能力。在使用预付费资源(包年包月资源池)创建开发机、任务、推理服务时,选定资源池后,可点击负载排队情况查看当前资源池中申请使用 GPU 的负载队列,并提前判断是否可启动多卡实例。
  • 镜像中心向仅使用「弹性资源」的租户提供私有镜像仓库,可用于存储自定义镜像,免费提供 100GB 存储空间。

AIStudio - 2024-09-29

新增

  • 新增展示资源池中空闲卡数的能力。在使用预付费资源(包年包月资源池)创建开发机、任务、推理服务时,在资源池下拉菜单中直接查看空闲可用卡数。
  • 新增展示资源池中资源占用详情的能力。在使用预付费资源(包年包月资源池)创建开发机、任务、推理服务时,选定资源池后,可点击占用情况查看当前资源占用明细,并提前判断是否可启动多卡实例。
  • 新建「任务」时,如果使用预付费资源(包年包月资源池),支持自定义卡数模式。如果为 1 - 8 卡,则创建单个 Worker。如果卡数 > 8,则创建多个 8 卡 Worker 和一个非 8 卡 Worker。
  • 镜像中心支持更灵活、便捷的上传镜像功能。用户可以从公网直接将本地容器镜像推送到平台分配的 Docker 仓库,或者通过提交第三方仓库镜像 URL 导入镜像。

AIStudio - 2024-09-23

新增

  • 新增「云盘」功能,基于分布式块存储技术,可提供高可靠、高可用、高性能的持久化存储,提供免费的 20GB 存储容量。云盘功能暂仅限于使用「弹性资源池」创建的开发机。
  • 新增通知中心。支持配置飞书机器人接收通知。暂仅支持「任务」模块,暂仅支持预置触发条件(任务完成、任务失败、任务异常)。
  • 支持代金劵能力,优先使用代金券扣费。

更改

  • 支持自助修改自定义镜像的可用服务模块(开发机、任务、推理服务)。
  • 支持在控制台首页展示租户资源池数量。
  • UX 优化:在创建高性能存储挂载点时,限制使用平台保留的挂载点,并提供友好提示。
  • UX 优化:事件展示时间轴样式优化。
  • UX 优化:全平台列表列宽调整。
  • UX 优化:模型详情列表和提示优化。
  • UX 优化:从工作台的数据概览页跳转至列表页后,携带状态筛选条件。

修复

  • 修复在镜像中心删除镜像后未清理镜像仓库内镜像数据的问题。

AIStudio - 2024-09-14

新增

  • 推理服务支持「自动扩缩容」,支持根据推理服务的资源监控指标变化,动态增减实例数量,弹性应对业务流量变化。

更改

  • UX 优化:对任务容错日志输出内容进行状态分类,对状态为 Error 和 Warning 日志信息进行标亮处理。

AIStudio - 2024-09-09

新增

  • 新建「开发机」时可以为 SSH 远程登录启用账号密码认证,已有开发机通过「改配」可启用账号密码认证(已配置 SSH 公钥情况下,总是优先使用基于密钥的认证)。

更改

  • 新建「开发机」默认启用 root 用户登录。已有开发机重启后自动变更为默认使用 root 用户登录。
  • 使用「推理服务」功能创建服务时,如启用外网访问,可自定义外网访问 URL 中的部分路径。

AIStudio - 2024-08-28

新增

  • 推理服务功能新增「外网访问」配置。启用后,推理服务将提供两种可从公网访问的方式。
    • 当前登录用户可点击超链接,直接访问推理服务。这种方式适用于提供 UI 界面的推理服务,例如文生图。
    • 受 API 鉴权保护的访问。持有 API 密钥的用户可随时访问该服务。

更改

  • UX 优化: 启动开发机时,如遇到基础镜像缺少必要组件(如 ssh)导致开发机创建失败,系统可直接显示原因,帮助用户快速定位并解决问题。
  • UX 优化: 非创建者的开发机/任务worker/推理实例的 Webterminal 登录按钮改为禁用状态。
  • UX 优化: 优化资源池功能,在移动资源时可更清晰地查看占用资源的负载数量和细节信息。
  • UX 优化: 发生欠费时,明确提示租户因欠费导致停止服务。

AIStudio - 2024-08-15

新增

  • 开发机功能新增「改配」按钮,支持用户修改开发机算力规格、镜像、存储等。
  • 开发机功能支持使用「弹性资源」创建开发机。弹性资源开发机按使用量(卡时)计费。
  • 任务功能新增「重跑」按钮,支持用户一键重跑或修改任务配置后重跑任务。
  • 任务功能在任务详情页新增「容错日志」标签页,展示任务容错的日志输出。
  • 任务功能新增「环境变量」配置项。创建任务时,可方便地从页面管理环境变量。在任务运行时,环境变量配置将注入 Pod 中。注意,任务配置中的环境无法覆盖任务启动命令和任务代码内设置的环境变量。
  • 推理服务功能支持「手动扩缩容」。提交改动后,立即执行扩缩容。
  • 镜像功能新增「镜像构建资源池」配置。在构建镜像时,用户需要选择可以使用该镜像的资源池。查看自定义镜像可用资源池时,平台会展示镜像仓库的可用存储余额。
  • 正式上线资源池管理功能。租户可查看名下所有资源池,可自助创建专属资源池,有效隔离和管理租户内的资源。
  • 智算云平台正式上线费用中心。

更改

  • 任务功能支持展示停止时间和任务耗时。
  • 推理服务功能支持用户登录实例。
  • 在使用资源池类型的算力资源创建开发机、任务、推理服务时,平台会按照租户的剩余算力资源配额计算和展示剩余可启动的容器数量。
  • 用户体验优化。

AIStudio - 2024-07-30

新增

  • 支持增删改查用户账号。
  • 任务的 worker 监控中新增 Tensor Core 使用率监控图表,当前仅支持 Nvidia 显卡。

AIStudio - 2024-07-24

新增

  • 开发机、任务 Worker 支持通过 df -h 命令查看当前租户共享高性能存储的真实配额。
  • 任务功能新增自检项目及相应日志。发起任务和任务失败后,输出环境检测的日志。您可以通过日志判断任务出错是否为机器硬件问题。
  • 任务容错功能支持进程重启、支持用户自定义最大容错次数。

变更

  • 开发机、任务 Worker、推理服务实例系统盘大小提升至 50GB。
  • 升级推理服务时,仅变更「最大不可用」配置可快速完成升级,不再触发 Worker 重启。
  • 任务功能增加两个任务状态:「恢复中」和「清理中」。「恢复中」表示任务中有 Worker 正在重启。「清理中」表示任务已无法正常运行,正在停止 Worker。

AIStudio - 2024-07-04

新增

  • 智算云平台支持用户自助完成实名认证。

变更

  • 使用开发机 Docker 功能时,开发机内部 Docker 容器不再独占显卡资源。开发机(主容器)可与内部容器共享显卡资源(旧版开发机如需支持该能力,需要关机再开机以完成更新)。

AIStudio - 2024-06-13

新增

  • 首次上线 AICoder。AICoder 是无穹平台提供的一种灵活、高效的开发和管理工具。AICoder 免费提供小规格的 CPU 实例资源,使用户能够在快速完成训练前的数据准备等任务。
  • 新增资源池管理功能。租户可查看名下所有资源池,可自助创建专属资源池,有效隔离和管理租户内的资源。
  • 任务功能支持容错能力。支持在训练前、训练中自动恢复。新建任务默认开启容错能力。
  • 任务功能提供更详细的 Worker 状态。用户在任务运行中时,进入详情页的刷新按钮获取最新 Worker 状态。
  • 推理服务功能支持查看各个实例的实时日志。默认展示第一个实例的日志,日志每 10s 采集一次。
  • 开发机、任务、推理服务功能支持查看「部署中」状态的详情进度。在进度长时间停滞在「部署中」状态时,可检查子操作进度并作进一步处理。

AIStudio - 2024-05-20

新增

  • AIStudio 首页(工作台)支持按资源池展示资源分配和使用情况。
  • 新增推理服务专用预置镜像,暂仅支持在创建推理服务时选用
    • inference-base:v1-vllm0.4.0-torch2.1-cuda12.3-ubuntu22.04
  • 推理服务支持升级,升级操作默认采取滚动更新机制,支持修改实例规格、镜像、文件存储等,同时支持回滚至历史版本。
  • 推理服务支持定时扩缩容,租户可设置每天或每周的固定时段内增减实例数量,有效管理服务容量,对应业务流量的变化,同时在资源使用上保持高效和节约。
  • 推理服务支持监控服务整体与实例级别的资源使用情况。如果使用指定预置镜像,还可以获取推理业务的性能表现、和流量变化等业务指标。
  • 任务的 worker 监控与开发机的监控中新增显卡功率监控图表,当前仅支持 Nvidia 显卡。
  • 开发机支持在容器内使用 nvidia-smi 获取使用 GPU 的进程列表。

修复

  • 修复了某些情况下开发机 rootfs 持久化失效的问题。
  • 修复了开发机内 dockerconfig 文件只读,导致无法从第三方仓库拉取镜像的问题。问题修复后,新创建的开发机可直接正常登录第三方镜像仓库。既有开发机在重启后正常登录第三方镜像仓库。

AIStudio - 2024-04-29

新增

  1. 镜像中心新增预置镜像,支持开发机、任务
    • Pytorch 24.03: cr.infini-ai.com/infini-ai/ngc:pytorch-24.03-py3
    • Ubuntu 22.04: cr.infini-ai.com/infini-ai/ubuntu:22.04-20240429

AIStudio - 2024-04-18

新增

  1. 推理服务支持克隆操作,可克隆现有服务,修改配置后再提交。
  2. 开发机、任务、推理服务列表页支持搜索、筛选、排序。其中名称和 ID 支持模糊搜索。状态、资源池、创建者等字段支持筛选。时间字段支持排序。
  3. 开发机列表页、任务列表页支持展示停留在「资源准备中」「运行中」状态的时长。
  4. 开发机详情页支持查看开发机生命周期的所有事件。

变更

  1. 创建开发机、任务时,支持删除全部挂载点。
  2. UX 体验改进。

AIStudio - 2024-03-29

新增

  1. 上线推理服务,您可以将训练好的模型部署成服务(当前仅支持内网访问该服务)。

更改

  1. 开发机的停止/启动操作文案变更为关机/开机。
  2. 开发机 SSH banner 中增加了更丰富的提示信息。

AIStudio - 2024-03-22

新增

  1. 上线镜像中心服务,您可以在镜像中心查询平台提供的预置镜像,也可以在平台构建自定义专属镜像。
  2. 任务的列表页面操作新增了查询日志的快捷入口。

更改

  1. 任务和开发机的状态图标新增颜色标识。

AIStudio - 2024-02-29

新增

  1. 新增支持手机号自助注册租户。
  2. 新增账号管理模块,可以给账号绑定手机号。
  3. 新增任务停止状态的原因展示。
  4. 新增任务 OOM 事件的展示。
  5. 变更用户密码登录方式,可以使用“用户名@租户名”和“密码”的方式登录,本次更新之前已经生成的用户名和租户名和密码依然有效。

修复

  1. 修复运行失败的任务无法重启的问题。
  2. 修复当任务完成阶段,短暂展示状态为“部署中”的问题。

AIStudio - 2024-02-07

新增

  1. 开发机持久化:停止开发机时会对开发机环境进行保存,重新启动时会以保存的环境启动开发机。同时,开发机 SSH Banner 也进行了更新。
  2. 开发机启动 docker 容器:更新后可以在开发机内启动docker容器,一旦启用,所有 GPU 资源都会被挂到 docker 容器内(暂不支持 docker 容器持久化)。
  3. 任务可视化:运行中的任务可以查看可视化数据(您需要在代码中保存可视化日志并在创建时告知我们您的日志保存路径),结束的任务需要前往开发机查看可视化数据。
  4. 任务监控:任务详情页面内新增支持在线查看资源监控数据。
  5. 任务日志:任务详情页面内新增支持在线查看任务日志。

AIStudio - 2024-01-23

新增

  1. 新增开发机和任务的监控功能,可以在详情页面查看。
  2. 新增任务可视化功能。

AIStudio - 2023-12-31

新增

  1. 首次发布一站式 AI 平台,支持开发机和任务。