创建与使用集群
本文介绍如何在 AI 容器服务平台创建并管理计算集群,涵盖准备工作、资源类型选择、网络与监控配置以及存储挂载等要点。
准备工作
使用 AI 容器服务需要以下准备工作:
- 如果使用包年包月资源创建集群,请提前购买支持创建 AI 容器服务集群的可用区的包年包月资源。
- 如果希望按量付费方式使用 AI 容器服务集群,可使用 Spot 资源创建资源。请提前申请开通该功能。
创建 AI 容器服务集群
在创建集群前,请先根据业务对稳定性与成本的诉求选择合适的资源类型。平台支持两种方式:包年包月(稳定、可用性高)与 Spot(弹性、成本更低但可能被回收)。下文分别说明两种方式的配置要点与操作步骤。
使用包年包月资源创建集群
您可以利用包年包月资源池中空闲的 8 卡计算资源节点创建集群。
- 已购买包年包月算力资源。仅包年包月资源可用于创建 AI 容器服务集群。
- 确认包年包月算力资源可支持 AI 容器服务平台。如果不支持,则无法成功创建集群。
注意
仅租户管理员或授权用户可操作。
登录 AI 容器服务平台,在左侧导航栏选择集群。在集群页面,选择创建集群。
在规格信息区域,完成以下配置:
资源类型:选择 包年包月资源。
资源池:在下拉列表中展示含有包年包月资源的默认资源池,或租户自创建的专属资源池。如果要创建集群,资源池中必须有完整的 8 卡节点。
注意
部分可用区暂未满足 AI 容器服务平台资源要求,因此暂未支持创建 AI 容器服务集群。如有需要,请咨询商务。
节点规格和数量:选择节点的算力规格和数量。例如,节点规格为
8*NVIDIA A100-40G NVLink
,节点数量为 1,表示占用一个 8 卡节点。您可以添加不同规格的资源节点。
在基础配置区域,完成以下配置:
- 公网访问:开启后,平台将提供用于公网访问的 kubeconfig 文件,支持从公网访问集群。
- 监控:开启后,平台将启用监控组件。可在集群详情页「监控」标签页下查看集群的 GPU 使用率等数据。
在存储配置区域,完成以下配置:
块存储:固定值 100GiB。单集群使用 PVC 容量上限默认为 100GiB。
共享高性能存储:集群可以 hostpath 方式挂载租户购买的同一可用区内的共享高性能存储,请依次选择文件系统、存储卷、挂载权限。如未购买高性能存储,无需修改。详见共享高性能存储。配置示例:
文件系统名称 存储卷名称与 ID 挂载权限 广东B-默认高性能存储 /public (vo-c7kcjqv2tjs5llry)
公共读写 名称:填写自定义名称。
创建完成后,等待集群进入「运行中」状态。
使用 Spot 资源创建集群
Spot 资源节点利用平台闲置库存,库存资源充足时可以被获取并使用,在库存资源不足时被中断回收,适用于容错能力强、中断容忍度高的业务场景。Spot 计算资源使用后付费模式,按实际使用时长计费。
注意
- 该功能需申请开通后使用,请联系商务或售后服务。
- 仅租户管理员或授权用户可操作。
在创建集群前,请保证账户余额充足。
登录 AI 容器服务平台,在左侧导航栏选择集群。在集群页面,选择创建集群。
在规格信息区域,完成以下配置:
- 资源类型: 选择 Spot。
- 节点规格和数量:在下拉列表中选择节点的算力规格,填写最数量。例如,节点规格为
8*NVIDIA A100-40G NVLink
,最大节点数量为 10。表示该集群在 Spot 资源节点充足时最大可占用10 个节点。您可以添加不同规格的 Spot 资源节点。所有 Spot 资源节点必须在同一可用区。注意
如果 Spot 资源节点无法选择,请检查该资源节点是否已添加节点在同一可用区。
在基础配置区域,完成以下配置:
- 公网访问:开启后,平台将提供用于公网访问的 kubeconfig 文件,支持从公网访问集群。
- 监控:开启后,平台将启用监控组件。可在集群详情页「监控」标签页下查看集群的 GPU 使用率等数据。
在存储配置区域,完成以下配置:
块存储:固定值 100GiB。单集群使用 PVC 容量上限默认为 100GiB。
共享高性能存储:集群可以 hostpath 方式挂载租户购买的同一可用区内的共享高性能存储,请依次选择文件系统、存储卷、挂载权限。如未购买高性能存储,无需修改。详见共享高性能存储。配置示例:
文件系统名称 存储卷名称与 ID 挂载权限 广东B-默认高性能存储 /public (vo-c7kcjqv2tjs5llry)
公共读写
创建完成后,等待集群进入「运行中」状态。根据当前 Spot 资源节点库存情况,集群中最少可能为 0 个节点,最多可达到配置的最大节点数量。平台仅按照实际占用的卡时计费。
注意
如果使用基于 Spot 资源的 AI 容器集群,请保证余额充足。余额不足时将停止服务,集群节点数将降至 0。