GenStudio 于 2025 年 5 月 推出 GenStudio 高级版/企业版升级服务,大幅提升 API 调用频率GenStudio 于 2025 年 5 月 推出 GenStudio 高级版/企业版升级服务,大幅提升 API 调用频率 ,依然保留免费基础服务了解计费
Skip to content

创建与使用集群

本文介绍如何在 AI 容器服务平台创建并管理计算集群,涵盖准备工作、资源类型选择、网络与监控配置以及存储挂载等要点。

准备工作

使用 AI 容器服务需要以下准备工作:

  • 如果使用包年包月资源创建集群,请提前购买支持创建 AI 容器服务集群的可用区的包年包月资源。
  • 如果希望按量付费方式使用 AI 容器服务集群,可使用 Spot 资源创建资源。请提前申请开通该功能。

创建 AI 容器服务集群

在创建集群前,请先根据业务对稳定性与成本的诉求选择合适的资源类型。平台支持两种方式:包年包月(稳定、可用性高)与 Spot(弹性、成本更低但可能被回收)。下文分别说明两种方式的配置要点与操作步骤。

使用包年包月资源创建集群

您可以利用包年包月资源池中空闲的 8 卡计算资源节点创建集群。

  • 已购买包年包月算力资源。仅包年包月资源可用于创建 AI 容器服务集群。
  • 确认包年包月算力资源可支持 AI 容器服务平台。如果不支持,则无法成功创建集群。

注意

仅租户管理员或授权用户可操作。

  1. 登录 AI 容器服务平台,在左侧导航栏选择集群。在集群页面,选择创建集群

  2. 规格信息区域,完成以下配置:

    • 资源类型:选择 包年包月资源

    • 资源池:在下拉列表中展示含有包年包月资源的默认资源池,或租户自创建的专属资源池。如果要创建集群,资源池中必须有完整的 8 卡节点。

      注意

      部分可用区暂未满足 AI 容器服务平台资源要求,因此暂未支持创建 AI 容器服务集群。如有需要,请咨询商务。

    • 节点规格和数量:选择节点的算力规格和数量。例如,节点规格为 8*NVIDIA A100-40G NVLink,节点数量为 1,表示占用一个 8 卡节点。您可以添加不同规格的资源节点。

  3. 基础配置区域,完成以下配置:

    • 公网访问:开启后,平台将提供用于公网访问的 kubeconfig 文件,支持从公网访问集群。
    • 监控:开启后,平台将启用监控组件。可在集群详情页「监控」标签页下查看集群的 GPU 使用率等数据。
  4. 存储配置区域,完成以下配置:

    • 块存储:固定值 100GiB。单集群使用 PVC 容量上限默认为 100GiB。

    • 共享高性能存储:集群可以 hostpath 方式挂载租户购买的同一可用区内的共享高性能存储,请依次选择文件系统、存储卷、挂载权限。如未购买高性能存储,无需修改。详见共享高性能存储。配置示例:

      文件系统名称存储卷名称与 ID挂载权限
      广东B-默认高性能存储/public (vo-c7kcjqv2tjs5llry)公共读写
    • 名称:填写自定义名称。

创建完成后,等待集群进入「运行中」状态。

使用 Spot 资源创建集群

Spot 资源节点利用平台闲置库存,库存资源充足时可以被获取并使用,在库存资源不足时被中断回收,适用于容错能力强、中断容忍度高的业务场景。Spot 计算资源使用后付费模式,按实际使用时长计费。

注意

  • 该功能需申请开通后使用,请联系商务或售后服务。
  • 仅租户管理员或授权用户可操作。

在创建集群前,请保证账户余额充足。

  1. 登录 AI 容器服务平台,在左侧导航栏选择集群。在集群页面,选择创建集群

  2. 规格信息区域,完成以下配置:

    • 资源类型: 选择 Spot
    • 节点规格和数量:在下拉列表中选择节点的算力规格,填写最数量。例如,节点规格为 8*NVIDIA A100-40G NVLink,最大节点数量为 10。表示该集群在 Spot 资源节点充足时最大可占用10 个节点。您可以添加不同规格的 Spot 资源节点。所有 Spot 资源节点必须在同一可用区。

      注意

      如果 Spot 资源节点无法选择,请检查该资源节点是否已添加节点在同一可用区。

  3. 基础配置区域,完成以下配置:

    • 公网访问:开启后,平台将提供用于公网访问的 kubeconfig 文件,支持从公网访问集群。
    • 监控:开启后,平台将启用监控组件。可在集群详情页「监控」标签页下查看集群的 GPU 使用率等数据。
  4. 存储配置区域,完成以下配置:

    • 块存储:固定值 100GiB。单集群使用 PVC 容量上限默认为 100GiB。

    • 共享高性能存储:集群可以 hostpath 方式挂载租户购买的同一可用区内的共享高性能存储,请依次选择文件系统、存储卷、挂载权限。如未购买高性能存储,无需修改。详见共享高性能存储。配置示例:

      文件系统名称存储卷名称与 ID挂载权限
      广东B-默认高性能存储/public (vo-c7kcjqv2tjs5llry)公共读写

创建完成后,等待集群进入「运行中」状态。根据当前 Spot 资源节点库存情况,集群中最少可能为 0 个节点,最多可达到配置的最大节点数量。平台仅按照实际占用的卡时计费。

注意

如果使用基于 Spot 资源的 AI 容器集群,请保证余额充足。余额不足时将停止服务,集群节点数将降至 0。