检查资源可用性
当资源有限时,团队成员之间可能会存在资源竞争。因此,在以下情况下,建议您在启动服务前检查资源占用情况:
- 资源池总量有限
- 租户对资源需求量大,资源池使用率经常处于高位
检查资源占用情况
在创建推理服务时,选定一个资源池后,可通过两个维度评估该资源池的资源可用性:
- 占用情况:点击查看当前资源占用明细,提前判断是否满足多卡实例启动需求。例如,如果当前资源池中的资源每个节点均被占用了1卡,则无法启用8卡规格的实例。
- 负载排队情况:点击查看当前资源池的排队状态。如果当前资源池中没有空闲资源,新的任务将进入排队等待状态。
NOTE
队列中包含全部等待资源的负载(开发机、推理、任务)。队列调度并非严格按照顺序进行,而是优先调度当前空闲可用卡数与负载需求相匹配的任务。例如,当资源池中出现一个空闲的8卡资源节点时,系统会优先调度队列中第一个申请8卡的负载。
资源相关问题的应对方案
当遇到资源竞争或资源不足的情况时,可以考虑以下解决方案:
使用专属资源池
- 如果您所在团队对资源有稳定且大量的需求,建议创建专属资源池
- 专属资源池可以有效隔离资源使用,避免与其他团队产生资源竞争
- 注意:专属资源池来自于租户购买的预付费资源(包天/包周/包月)资源,需自行创建
优化资源使用时间
- 选择负载较低的时间段启动服务
- 通过查看"负载排队情况",避开资源使用高峰期
- 服务不使用时及时释放资源
临时解决方案
- 如遇到资源紧张,可与团队沟通从同一可用区的其他资源池临时移入空闲资源
- 寻找其他可用区的资源池(注意:专属/共享资源池不可跨可用区)
- 必要时可请求其他团队暂时释放闲置资源
NOTE
- 建议在申请专属资源池时,根据历史使用数据评估所需资源量
- 资源调整(移入/移出)操作建议在负载较低时进行
- 如需关闭他人的开发机以释放资源,请提前与相关人员沟通,并确保重要数据已保存至共享存储