AI 容器服务平台
AI 容器服务平台基于 Kubernetes 构建 AI 计算基础设施。每个计算节点配置 8块 GPU,支持训练、推理等常见任务。平台提供近标准化 K8S 使用体验,可满足从单机实验到大规模分布式训练的全场景需求。
关键概念
- 控制平面: 由 AIStudio 维护,用户无需管理集群控制面。
- 节点: 仅包含 Worker 节点,Master 节点不可见。
- Pod 调度: 默认情况下,AI 容器服务使用专有调度器来调度工作负载。
- 存储: 可以直接使用平台默认提供的 Longhorn StorageClass 创建 PVC。支持挂载租户的高性能共享存储。
准备工作
使用 AI 容器服务需要以下准备工作:
- 已购买包年包月算力资源。仅包年包月资源可用于创建 AI 容器服务集群。
- 确认包年包月算力资源可支持 AI 容器服务平台。如果不支持,则无法成功创建集群。
NOTE
部分可用区暂未满足 AI 容器服务平台资源要求,因此暂未支持创建 AI 容器服务集群。如有需要,请咨询商务。
基本流程
平台权限与集群权限
智算云平台通过权限策略控制所有操作权限。拥有以下内置系统策略的用户可使用 AI 容器服务平台。
- 租户管理员:允许对 AI 容器服务集群执行所有操作。可获取 K8S 集群管理员级别的 KubeConfig。
- AI 容器服务平台开发者:允许连接集群、查看集群详情、查看连接信息、查看集群监控、查看扩缩容记录。可获取 K8S 集群普通用户级别的 KubeConfig。
除以上内置系统策略外,租户管理员可以自建自定义策略,添加 AI 容器服务的操作权限。
登录智算云平台,访问策略管理页面,点击创建自定义策略。
在自定义页面,找到服务标签,在下拉列表中单击 AI 容器服务平台。选择全部操作或指定操作。
如选择全部操作,该策略可授权用户在 AI 容器服务平台执行管理员操作,例如创建集群、获取 K8S 集群管理员级别的 KubeConfig 等。
创建完成后,点击自定义策略名称,进入详情页。点击右侧添加权限为用户或用户组授权。
基本使用
AI 容器服务集群简化了 K8S 使用流程,用户只需要运行 AI 工作负载,避免了日常的运维工作。
创建集群
您可以利用包年包月资源池中空闲的 8 卡计算资源节点创建集群。
NOTE
仅租户管理员或授权用户可操作。
登录 AI 容器服务平台,在左侧导航栏选择集群。
在集群页面,选择创建集群。完成以下配置:
- 资源池:在下拉列表中展示含有包年包月资源的默认资源池,或租户自创建的专属资源池。如果要创建集群,资源池中必须有完整的 8 卡节点。
- 节点规格和数量:选择节点的算力规格和数量。例如,节点规格为
8*NVIDIA A100-40G NVLink
,节点数量为 1,表示占用一个 8 卡节点。 - 公网访问:开启后,平台将提供用于公网访问的 kubeconfig 文件,支持从公网访问集群。
- 监控:开启后,平台将启用监控组件。可在集群详情页「监控」标签页下查看集群的 GPU 使用率等数据。
- 名称:填写自定义名称。
创建完成后,等待集群进入「运行中」状态。
连接集群
AI 容器服务平台集成了 AICoder,在 AICoder 中可直接使用集群。
NOTE
此处仅介绍内网连接集群方式。如需从公网访问集群,可在开启公网访问,并获取 KubeConfig 文件。详见连接集群。
登录 AI 容器服务平台,在左侧导航栏选择集群。
在「集群」页面点击操作栏的连接按钮,可以唤起 AICoder。AICoder 中已预装 kubectl 工具,并已配置当前集群的 kubeconfig 文件。
验证 kubectl 是否已正确安装
shellkubectl version --client
检查虚拟集群中的节点
kubectl get nodes
由于控制平面由 AI 容器服务平台维护,因此您只会看到 Worker 节点,输出的数量应与您创建集群时添加的节点数量一致。
% kubectl get nodes
NAME STATUS ROLES AGE VERSION
vnode1 Ready <none> 8d v1.26.15
vnode3 Ready <none> 8d v1.26.15
检查集群中的命名空间
kubectl get namespaces
首次使用时,您将看到以下命名空间(假设已开启集群监控):
% kubectl get namespaces
NAME STATUS AGE
default Active 8d # 系统默认命名空间,建议创建专用命名空间而不是使用默认空间
kube-node-lease Active 8d # 系统命名空间,存储节点心跳数据,请勿修改
kube-public Active 8d # 系统命名空间,存储公开访问数据,请勿修改
kube-system Active 8d # 系统命名空间,运行核心系统组件,请勿修改
monitoring Active 8d # 监控相关命名空间,谨慎操作
在虚拟集群中部署资源
创建命名空间和 NGINX 部署:
shellkubectl create namespace demo-nginx kubectl create deployment ngnix-deployment -n demo-nginx --image=m.daocloud.io/docker.io/library/nginx:latest -r 2
检查 Pod:
shellkubectl get pods -n demo-nginx
正常输出:
shell% kubectl get pods -n demo-nginx NAME READY STATUS RESTARTS AGE ngnix-deployment-bdf955b54-vf4ld 1/1 Running 0 15s ngnix-deployment-bdf955b54-zj28n 1/1 Running 0 15s
查看集群中的 GPU 资源
AI 容器服务集群会自动检测节点上的 GPU,并向 API Server 汇报可用资源(如 nvidia.com/gpu=8
)。
# 查看节点 GPU 资源
% kubectl get nodes -o jsonpath="{range .items[*]}{.metadata.name}{': '}{.status.allocatable.nvidia\.com/gpu}{'\n'}{end}"
re-dav3kminmvhiyb7a: 8
当 Pod 请求 nvidia.com/gpu
时,设备插件会自动将 GPU 设备(如 /dev/nvidia*
)挂载到容器中,并设置必要权限,并不需要开启特权模式。
高级用法
配置 Nginx Ingress 控制器
平台默认提供 nginx ingressClass,支持创建路由规则,域名绑定和路径转发。
apiVersion: networking.k8s.io/v1
kind: Ingress
metadata:
name: qwen-1-5
spec:
ingressClassName: nginx
rules:
- host: qwen-1-5.example.org
http:
paths:
- path: /
pathType: Prefix
backend:
service:
name: qwen-1-5
port:
number: 80
使用 Longhorn 供应持久化存储
AI 容器服务集群默认仅提供 LongHorn 存储系统的 StorageClass。不支持租户自助管理 storageclass/ingressclass/pv/csidriver/csinode 等资源。
- 创建 PVC 时,必须指定为
storageClassName: longhorn
。 - PVC 的
accessModes
必须配置为ReadWriteOnce
。 - 单集群 PVC 用量上限为 100 GiB。如开启集群监控,需占用 52 GiB。剩余 PVC 可用容量为 48 GiB。
apiVersion: v1
kind: PersistentVolumeClaim
metadata:
name: demo-pvc
spec:
accessModes:
- ReadWriteOnce
resources:
requests:
storage: 10Gi
storageClassName: longhorn
NOTE
如需更多存储容量,后需要支持其他存储类型,请联系技术支持。
常见问题
如何创建和配置集群?
您可以通过 AI 容器服务平台的图形界面(GUI)创建集群。未来将提供命令行工具。
我可以选择 Kubernetes 的版本吗?
暂不支持。如有需要,请联系技术支持。
部署在哪些区域或可用区?
创建集群时,需要选择包年包月资源所在的资源池。集群所在可用区与您的包年包月资源池可用区一致。
如何管理计算资源(节点)?
您可以通过 AI 容器服务平台的图形界面(GUI)对集群进行扩容、缩容操作,实现增减计算资源节点。
有哪些存储选项?
是的,平台默认支持通过 PVC 使用持久化存储。创建 PVC 时,需使用平台提供的 storageClassName: longhorn
。
单集群使用 PVC 容量上限为 100 GiB。如有需要,请联系商务。
平台还提供其他持久存储方案,可挂载租户已有的高性能共享存储。如有需要,请联系技术支持。
如何查看存储总量和存储用量?
暂不支持直接通过 API 或网页端查看存储总量。
如需帮助,请联系技术支持。
如何控制集群访问?
AI 容器服务平台提供了访问权限管理。
- 智算云平台预置 AI 容器服务平台使用者权限策略。租户下的用户关联此策略后,可使用 AI 容器服务平台。
- 您可以在「策略管理」页面创建自定义策略,选择具体的增删改查操作。
有哪些监控工具?
是的,AI 容器服务平台可为集群展示监控指标,展示 GPU 使用率、在线卡数等关键指标。
您还可以通过集群内的 Prometheus 进行更深入的监控。
如何管理日志?
AI 容器服务平台暂未提供提供集中式日志记录、查看和分析。
如有需要,请联系技术支持。
费用如何计算?
AI 容器服务平台本身不收费。您需要为包年包月计算资源与存储资源付费。