GenStudio 于 2025 年 5 月 推出 GenStudio 高级版/企业版升级服务,大幅提升 API 调用频率GenStudio 于 2025 年 5 月 推出 GenStudio 高级版/企业版升级服务,大幅提升 API 调用频率 ,依然保留免费基础服务了解计费
Skip to content

AI 容器服务平台

AI 容器服务平台基于 Kubernetes 构建 AI 计算基础设施。每个计算节点配置 8块 GPU,支持训练、推理等常见任务。平台提供近标准化 K8S 使用体验,可满足从单机实验到大规模分布式训练的全场景需求。

关键概念

  • 控制平面: 由 AIStudio 维护,用户无需管理集群控制面。
  • 节点: 仅包含 Worker 节点,Master 节点不可见。
  • Pod 调度: 默认情况下,AI 容器服务使用专有调度器来调度工作负载。
  • 存储: 可以直接使用平台默认提供的 Longhorn StorageClass 创建 PVC。支持挂载租户的高性能共享存储。

基本流程

平台权限与集群权限

智算云平台通过权限策略控制所有操作权限。拥有以下内置系统策略的用户可使用 AI 容器服务平台。

  • 租户管理员:允许对 AI 容器服务集群执行所有操作。可获取 K8S 集群管理员级别的 KubeConfig。
  • AI 容器服务平台开发者:允许连接集群、查看集群详情、查看连接信息、查看集群监控、查看扩缩容记录。可获取 K8S 集群普通用户级别的 KubeConfig。

除以上内置系统策略外,租户管理员可以自建自定义策略,添加 AI 容器服务的操作权限。

  1. 登录智算云平台,访问策略管理页面,点击创建自定义策略

  2. 在自定义页面,找到服务标签,在下拉列表中单击 AI 容器服务平台。选择全部操作指定操作

  3. 如选择全部操作,该策略可授权用户在 AI 容器服务平台执行管理员操作,例如创建集群、获取 K8S 集群管理员级别的 KubeConfig 等。

  4. 创建完成后,点击自定义策略名称,进入详情页。点击右侧添加权限为用户或用户组授权。

常见问题

如何创建和配置集群?

您可以通过 AI 容器服务平台的图形界面(GUI)创建集群。未来将提供命令行工具。

我可以选择 Kubernetes 的版本吗?

暂不支持。如有需要,请联系技术支持。

部署在哪些区域或可用区?

  • 使用包年包月资源创建 AI 容器服务集群时,需要选择包年包月资源所在的资源池。集群所在可用区与您的包年包月资源池可用区一致。
  • 使用 Spot 资源创建 AI 容器服务集群时,需要选择 Spot 资源节点。集群所在可用区与 Spot 资源节点所在可用区一致。

如何管理计算资源(节点)?

您可以通过 AI 容器服务平台的图形界面(GUI)对集群进行扩容、缩容操作,实现增减计算资源节点。

有哪些存储选项?

平台默认为每个集群免费提供 100 GiB 持久化存储,支持通过 PVC 使用。创建 PVC 时,需使用平台提供的 storageClassName: longhorn

平台还支持通过 hostpath 方式挂载租户已有的高性能共享存储。

如何查看存储总量和存储用量?

暂不支持直接通过 API 或网页端查看存储总量。

如需帮助,请联系技术支持。

如何控制集群访问?

AI 容器服务平台提供了访问权限管理。

  • 智算云平台预置 AI 容器服务平台使用者权限策略。租户下的用户关联此策略后,可使用 AI 容器服务平台。
  • 您可以在「策略管理」页面创建自定义策略,选择具体的增删改查操作。

有哪些监控工具?

是的,AI 容器服务平台可为集群展示监控指标,展示 GPU 使用率、在线卡数等关键指标。

您还可以通过集群内的 Prometheus 进行更深入的监控。

如何管理日志?

AI 容器服务平台暂未提供提供集中式日志记录、查看和分析。

如有需要,请联系技术支持。

费用如何计算?

AI 容器服务平台功能本身不收费。您需要为包年包月计算资源、Spot 计算资源与存储资源付费。

AI 容器服务平台支持按量付费吗?

支持。您可以选择使用 Spot 资源节点(8 卡)并按卡时付费。详见创建集群

如何查看基于 Spot 资源的 AI 容器服务平台的花销情况,例如明细账单?

访问费用中心账单页面,切换到「明细账单」,产品名为「集群(竞价计算资源)」。

  • 每个自然小时结束后生成账单明细,加入当前自然月的月账单中。例如,0 点-1 点的费用明细会在1点后生成,更新至当月账单中。
  • 明细账单计算方式:每自然小时累计总运行时长 × 单价
  • 所有时间均为北京时间 (UTC+8)。