AI 容器服务平台
AI 容器服务平台基于 Kubernetes 构建 AI 计算基础设施。每个计算节点配置 8块 GPU,支持训练、推理等常见任务。平台提供近标准化 K8S 使用体验,可满足从单机实验到大规模分布式训练的全场景需求。
关键概念
- 控制平面: 由 AIStudio 维护,用户无需管理集群控制面。
- 节点: 仅包含 Worker 节点,Master 节点不可见。
- Pod 调度: 默认情况下,AI 容器服务使用专有调度器来调度工作负载。
- 存储: 可以直接使用平台默认提供的 Longhorn StorageClass 创建 PVC。支持挂载租户的高性能共享存储。
基本流程
平台权限与集群权限
智算云平台通过权限策略控制所有操作权限。拥有以下内置系统策略的用户可使用 AI 容器服务平台。
- 租户管理员:允许对 AI 容器服务集群执行所有操作。可获取 K8S 集群管理员级别的 KubeConfig。
- AI 容器服务平台开发者:允许连接集群、查看集群详情、查看连接信息、查看集群监控、查看扩缩容记录。可获取 K8S 集群普通用户级别的 KubeConfig。
除以上内置系统策略外,租户管理员可以自建自定义策略,添加 AI 容器服务的操作权限。
登录智算云平台,访问策略管理页面,点击创建自定义策略。
在自定义页面,找到服务标签,在下拉列表中单击 AI 容器服务平台。选择全部操作或指定操作。
如选择全部操作,该策略可授权用户在 AI 容器服务平台执行管理员操作,例如创建集群、获取 K8S 集群管理员级别的 KubeConfig 等。
创建完成后,点击自定义策略名称,进入详情页。点击右侧添加权限为用户或用户组授权。
常见问题
如何创建和配置集群?
您可以通过 AI 容器服务平台的图形界面(GUI)创建集群。未来将提供命令行工具。
我可以选择 Kubernetes 的版本吗?
暂不支持。如有需要,请联系技术支持。
部署在哪些区域或可用区?
- 使用包年包月资源创建 AI 容器服务集群时,需要选择包年包月资源所在的资源池。集群所在可用区与您的包年包月资源池可用区一致。
- 使用 Spot 资源创建 AI 容器服务集群时,需要选择 Spot 资源节点。集群所在可用区与 Spot 资源节点所在可用区一致。
如何管理计算资源(节点)?
您可以通过 AI 容器服务平台的图形界面(GUI)对集群进行扩容、缩容操作,实现增减计算资源节点。
有哪些存储选项?
平台默认为每个集群免费提供 100 GiB 持久化存储,支持通过 PVC 使用。创建 PVC 时,需使用平台提供的 storageClassName: longhorn
。
平台还支持通过 hostpath 方式挂载租户已有的高性能共享存储。
如何查看存储总量和存储用量?
暂不支持直接通过 API 或网页端查看存储总量。
如需帮助,请联系技术支持。
如何控制集群访问?
AI 容器服务平台提供了访问权限管理。
- 智算云平台预置 AI 容器服务平台使用者权限策略。租户下的用户关联此策略后,可使用 AI 容器服务平台。
- 您可以在「策略管理」页面创建自定义策略,选择具体的增删改查操作。
有哪些监控工具?
是的,AI 容器服务平台可为集群展示监控指标,展示 GPU 使用率、在线卡数等关键指标。
您还可以通过集群内的 Prometheus 进行更深入的监控。
如何管理日志?
AI 容器服务平台暂未提供提供集中式日志记录、查看和分析。
如有需要,请联系技术支持。
费用如何计算?
AI 容器服务平台功能本身不收费。您需要为包年包月计算资源、Spot 计算资源与存储资源付费。
AI 容器服务平台支持按量付费吗?
支持。您可以选择使用 Spot 资源节点(8 卡)并按卡时付费。详见创建集群。
如何查看基于 Spot 资源的 AI 容器服务平台的花销情况,例如明细账单?
访问费用中心账单页面,切换到「明细账单」,产品名为「集群(竞价计算资源)」。
- 每个自然小时结束后生成账单明细,加入当前自然月的月账单中。例如,0 点-1 点的费用明细会在1点后生成,更新至当月账单中。
- 明细账单计算方式:每自然小时累计总运行时长 × 单价
- 所有时间均为北京时间 (UTC+8)。