扩缩容
AIStudio 推理服务的「扩缩容」功能可用于增减服务实例数量,帮助您更好地应对业务流量的变化,同时在资源使用上保持高效和节约。
- 手动扩缩容: 手动增减推理服务的基础实例数量,此后该服务将长期以 4 个实例的状态运行。
- 动态扩缩容: 通过「定时扩缩容」计划或「自动扩缩容」,在在流量高峰期增加服务实例,在低谷期减少实例。
NOTE
- 「定时扩缩容」与「自动扩缩容」为互斥功能。如需动态扩缩容,请选择其中一种方式。
- 「手动扩缩容」与「自动扩缩容」不会互斥,但是自动扩缩容会覆盖手动扩缩容的执行结果。如果想要手动管理实例数量,建议保持自动扩缩容关闭。
手动扩缩容
手动扩缩容是指手动增减推理服务的基础实例数量。例如,创建服务时指定实例数量为 1,后续流量压力增大,需要增加 3 个实例数量,此时可通过「手动扩缩容」设置目标实例数为 4,此后该服务将长期以 4 个实例的状态运行。
直接在推理服务列表页面找到该服务,点击「扩缩容」按钮,可修改基础实例数。
修改提交后,推理服务将按照目标实例数立即执行扩容或缩容。
DANGER
手动扩缩容将导致推理服务实例数量立即变更,如果当前存在正在生效的定时扩缩容计划,请谨慎操作。
定时扩缩容
「定时扩缩容」允许您设置定时扩缩容任务。您可以预估业务流量高峰和低谷时间段(精确到分钟),在高峰时段增加服务实例数量,在低谷期减少,以优化成本并提高服务的稳定性。
在推理服务详情页面,切换「扩缩容」标签,再切换到定时扩缩容,即可开始配置。
创建定时扩缩容计划
您可以创建一个或多个扩缩容计划。
点击创建定时扩缩容。填写以下必要信息:
- 目标实例数: 期望达到的实例数量。不得超过您购买的资源上限。
- 循环设置:设置定时扩缩容的时间频率(每天或每周)和时间段(起点和终点)。
- 名称:为您的计划命名以便管理和识别,确保名称在同一服务中唯一。
在保存计划之前,系统会自动检测任何潜在的时间冲突:
- 若无冲突,则新计划将默认激活。
- 若检测到冲突,系统则提示用户,并将新计划设为默认关闭状态。
确认信息无误后保存计划。系统会进行以下操作:
- 根据调度策略,自动执行扩缩容操作。
NOTE
在执行缩容计划时,如存在异常实例,优先停止异常实例。
- 保持服务的当前运行状态(例如,如果服务在操作前已停止,则在操作后仍将停止)。
- 如果当前时间已超过设置的扩缩容时间,则计划将从下一个周期开始生效。
- 根据调度策略,自动执行扩缩容操作。
管理和维护多个扩缩容计划
您可以创建多个计划,按需启用或停用计划。
- 修改 :更新计划的目标实例数、循环设置(定时设置)或名称。最长 5 分钟内生效。
- 开启/关闭 :按需启用或停用计划。如果待启用的计划与当前生效的计划时间冲突,系统将提示您检查冲突。
- 删除 :移除不再需要的扩缩容计划。
自动扩缩容
「自动扩缩容」允许您以推理服务的资源监控指标为依据,动态增减实例数量,弹性应对业务流量变化。
TIP
适用场景:
- 推理业务高峰低谷不遵循固定的时间规律,无法预期,期望根据业务负载自动扩缩容。
- 同一租户的多个推理服务具有不同的流量变化规律,希望不同服务之间根据压力的平衡资源分配,提供资源利用率。
WARNING
- 「自动扩缩容」与「定时扩缩容」互斥。配置自动扩缩容前,请先禁用定时扩缩容计划。
- 「手动扩缩容」与「自动扩缩容」不会互斥,但是自动扩缩容会覆盖手动扩缩容的执行结果。如果想要手动管理实例数量,建议先关闭自动扩缩容。
在推理服务详情页面,切换「扩缩容」标签,再切换到定时扩缩容,即可开始配置。
创建自动扩缩容配置
如果您已非常熟悉自动扩缩容配置,可在创建推理服务时启用「自动扩缩容」功能并完成配置。
您也可以在推理服务创建、测试和运行成功再开启「自动扩缩容」,以下步骤以此为例:
点击自动扩缩容标签,创建配置。填写以下必要信息:
- 最小实例数: 为缩容操作设置一个实例数下限。
- 最大实例数: 为扩容操作设置一个实例数上限。不得超过您购买的资源上限。
- 监测指标: 设置期望监测的指标以及阈值,已支持检测 CPU、内存、显卡的使用率。任一指标超过阈值后,系统自动计算扩容目标实例数。任一指标低于阈值后,系统自动计算缩容目标实例数。如监测多项指标,将取所有计算结果中最大的实例数作为目标。
- 扩容观察期: 平台会回溯观察期内(1~3600秒)的历史指标,计算出最合理的扩容实例数。0 表示不回溯,立即触发扩容。
- 缩容观察期: 平台会回溯观察期内(1~3600秒)的历史指标,计算出最合理的缩容实例数。0 表示不回溯,立即触发缩容。为了避免指标反复变化造成实例数波动,建议该项不要设置为 0。
- 扩容步长:设置执行下一次扩容操作的时间频率和单次操作实例数量。
- 缩容步长:设置执行下一次缩容操作的时间频率和单次操作实例数量。在缩容时可适当增加步长,避免实例数减少过快,影响服务稳定性。
在保存之前,系统会自动检测任何潜在的冲突。若确认无冲突,系统会进行以下操作:
- 根据推理服务资源监控频率,自动计算指标是否应触发扩缩容。
NOTE
在执行缩容计划时,如存在异常实例,优先停止异常实例。
- 保持服务的当前运行状态(例如,如果服务在操作前已停止,则在操作后仍将停止)。
- 根据推理服务资源监控频率,自动计算指标是否应触发扩缩容。
注意事项
- 自动扩缩容与升级:在升级推理服务过程中,如果触发自动扩缩容同升级中的状态一起执行。
- 在设置「定时扩缩容」或「自动扩缩容」时,可根据推理服务并发请求数、输入输出 Token 数量等尝试调整参数值,根据状态变化确定最佳参数,以避免影响用户体验。