AIStudio SSH 公钥管理,一处配置,处处可用AIStudio SSH 公钥管理,一处配置,处处可用 ,只为更佳开发体验如何配置
Skip to content

AI 容器服务平台

AI 容器服务平台基于 Kubernetes 构建 AI 计算基础设施。每个计算节点配置 8块 GPU,支持训练、推理等常见任务。平台提供近标准化 K8S 使用体验,可满足从单机实验到大规模分布式训练的全场景需求。

关键概念

  • 控制平面: 由 AIStudio 维护,用户无需管理集群控制面。
  • 节点: 仅包含 Worker 节点,Master 节点不可见。
  • Pod 调度: 默认情况下,AI 容器服务使用专有调度器来调度工作负载。
  • 存储: 可以直接使用平台默认提供的 Longhorn StorageClass 创建 PVC。支持挂载租户的高性能共享存储。

准备工作

使用 AI 容器服务需要以下准备工作:

  • 已购买包年包月算力资源。仅包年包月资源可用于创建 AI 容器服务集群。
  • 确认包年包月算力资源可支持 AI 容器服务平台。如果不支持,则无法成功创建集群。

NOTE

部分可用区暂未满足 AI 容器服务平台资源要求,因此暂未支持创建 AI 容器服务集群。如有需要,请咨询商务。

基本流程

平台权限与集群权限

智算云平台通过权限策略控制所有操作权限。拥有以下内置系统策略的用户可使用 AI 容器服务平台。

  • 租户管理员:允许对 AI 容器服务集群执行所有操作。可获取 K8S 集群管理员级别的 KubeConfig。
  • AI 容器服务平台开发者:允许连接集群、查看集群详情、查看连接信息、查看集群监控、查看扩缩容记录。可获取 K8S 集群普通用户级别的 KubeConfig。

除以上内置系统策略外,租户管理员可以自建自定义策略,添加 AI 容器服务的操作权限。

  1. 登录智算云平台,访问策略管理页面,点击创建自定义策略

  2. 在自定义页面,找到服务标签,在下拉列表中单击 AI 容器服务平台。选择全部操作指定操作

  3. 如选择全部操作,该策略可授权用户在 AI 容器服务平台执行管理员操作,例如创建集群、获取 K8S 集群管理员级别的 KubeConfig 等。

  4. 创建完成后,点击自定义策略名称,进入详情页。点击右侧添加权限为用户或用户组授权。

基本使用

AI 容器服务集群简化了 K8S 使用流程,用户只需要运行 AI 工作负载,避免了日常的运维工作。

创建集群

您可以利用包年包月资源池中空闲的 8 卡计算资源节点创建集群。

NOTE

仅租户管理员或授权用户可操作。

  1. 登录 AI 容器服务平台,在左侧导航栏选择集群

  2. 集群页面,选择创建集群。完成以下配置:

    • 资源池:在下拉列表中展示含有包年包月资源的默认资源池,或租户自创建的专属资源池。如果要创建集群,资源池中必须有完整的 8 卡节点。
    • 节点规格和数量:选择节点的算力规格和数量。例如,节点规格为 8*NVIDIA A100-40G NVLink,节点数量为 1,表示占用一个 8 卡节点。
    • 公网访问:开启后,平台将提供用于公网访问的 kubeconfig 文件,支持从公网访问集群。
    • 监控:开启后,平台将启用监控组件。可在集群详情页「监控」标签页下查看集群的 GPU 使用率等数据。
    • 名称:填写自定义名称。

创建完成后,等待集群进入「运行中」状态。

连接集群

AI 容器服务平台集成了 AICoder,在 AICoder 中可直接使用集群。

NOTE

此处仅介绍内网连接集群方式。如需从公网访问集群,可在开启公网访问,并获取 KubeConfig 文件。详见连接集群

  1. 登录 AI 容器服务平台,在左侧导航栏选择集群

  2. 在「集群」页面点击操作栏的连接按钮,可以唤起 AICoder。AICoder 中已预装 kubectl 工具,并已配置当前集群的 kubeconfig 文件。

    kubectl

  3. 验证 kubectl 是否已正确安装

    shell
    kubectl version --client

检查虚拟集群中的节点

shell
kubectl get nodes

由于控制平面由 AI 容器服务平台维护,因此您只会看到 Worker 节点,输出的数量应与您创建集群时添加的节点数量一致。

shell
% kubectl get nodes
NAME     STATUS   ROLES    AGE   VERSION
vnode1   Ready    <none>   8d    v1.26.15
vnode3   Ready    <none>   8d    v1.26.15

检查集群中的命名空间

shell
kubectl get namespaces

首次使用时,您将看到以下命名空间(假设已开启集群监控):

shell
% kubectl get namespaces
NAME              STATUS   AGE
default           Active   8d    # 系统默认命名空间,建议创建专用命名空间而不是使用默认空间
kube-node-lease   Active   8d    # 系统命名空间,存储节点心跳数据,请勿修改
kube-public       Active   8d    # 系统命名空间,存储公开访问数据,请勿修改
kube-system       Active   8d    # 系统命名空间,运行核心系统组件,请勿修改
monitoring        Active   8d    # 监控相关命名空间,谨慎操作

在虚拟集群中部署资源

  1. 创建命名空间和 NGINX 部署:

    shell
    kubectl create namespace demo-nginx
    kubectl create deployment ngnix-deployment -n demo-nginx --image=m.daocloud.io/docker.io/library/nginx:latest -r 2
  2. 检查 Pod:

    shell
    kubectl get pods -n demo-nginx

    正常输出:

    shell
    % kubectl get pods -n demo-nginx
    NAME                               READY   STATUS    RESTARTS   AGE
    ngnix-deployment-bdf955b54-vf4ld   1/1     Running   0          15s
    ngnix-deployment-bdf955b54-zj28n   1/1     Running   0          15s

查看集群中的 GPU 资源

AI 容器服务集群会自动检测节点上的 GPU,并向 API Server 汇报可用资源(如 nvidia.com/gpu=8)。

shell
# 查看节点 GPU 资源
% kubectl get nodes -o jsonpath="{range .items[*]}{.metadata.name}{': '}{.status.allocatable.nvidia\.com/gpu}{'\n'}{end}"
re-dav3kminmvhiyb7a: 8

当 Pod 请求 nvidia.com/gpu 时,设备插件会自动将 GPU 设备(如 /dev/nvidia*)挂载到容器中,并设置必要权限,并不需要开启特权模式。

高级用法

配置 Nginx Ingress 控制器

平台默认提供 nginx ingressClass,支持创建路由规则,域名绑定和路径转发。

yaml
apiVersion: networking.k8s.io/v1
kind: Ingress
metadata:
  name: qwen-1-5
spec:
  ingressClassName: nginx
  rules:
  - host: qwen-1-5.example.org
    http:
      paths:
      - path: /
        pathType: Prefix
        backend:
          service:
            name: qwen-1-5
            port:
              number: 80

使用 Longhorn 供应持久化存储

AI 容器服务集群默认仅提供 LongHorn 存储系统的 StorageClass。不支持租户自助管理 storageclass/ingressclass/pv/csidriver/csinode 等资源。

  • 创建 PVC 时,必须指定为 storageClassName: longhorn
  • PVC 的 accessModes 必须配置为 ReadWriteOnce
  • 单集群 PVC 用量上限为 100 GiB。如开启集群监控,需占用 52 GiB。剩余 PVC 可用容量为 48 GiB。
yaml
apiVersion: v1
kind: PersistentVolumeClaim
metadata:
  name: demo-pvc
spec:
  accessModes:
  - ReadWriteOnce
  resources:
    requests:
      storage: 10Gi
  storageClassName: longhorn

NOTE

如需更多存储容量,后需要支持其他存储类型,请联系技术支持。

常见问题

如何创建和配置集群?

您可以通过 AI 容器服务平台的图形界面(GUI)创建集群。未来将提供命令行工具。

我可以选择 Kubernetes 的版本吗?

暂不支持。如有需要,请联系技术支持。

部署在哪些区域或可用区?

创建集群时,需要选择包年包月资源所在的资源池。集群所在可用区与您的包年包月资源池可用区一致。

如何管理计算资源(节点)?

您可以通过 AI 容器服务平台的图形界面(GUI)对集群进行扩容、缩容操作,实现增减计算资源节点。

有哪些存储选项?

是的,平台默认支持通过 PVC 使用持久化存储。创建 PVC 时,需使用平台提供的 storageClassName: longhorn

单集群使用 PVC 容量上限为 100 GiB。如有需要,请联系商务。

平台还提供其他持久存储方案,可挂载租户已有的高性能共享存储。如有需要,请联系技术支持。

如何查看存储总量和存储用量?

暂不支持直接通过 API 或网页端查看存储总量。

如需帮助,请联系技术支持。

如何控制集群访问?

AI 容器服务平台提供了访问权限管理。

  • 智算云平台预置 AI 容器服务平台使用者权限策略。租户下的用户关联此策略后,可使用 AI 容器服务平台。
  • 您可以在「策略管理」页面创建自定义策略,选择具体的增删改查操作。

有哪些监控工具?

是的,AI 容器服务平台可为集群展示监控指标,展示 GPU 使用率、在线卡数等关键指标。

您还可以通过集群内的 Prometheus 进行更深入的监控。

如何管理日志?

AI 容器服务平台暂未提供提供集中式日志记录、查看和分析。

如有需要,请联系技术支持。

费用如何计算?

AI 容器服务平台本身不收费。您需要为包年包月计算资源与存储资源付费。