GenStudio 文本类 API 调用限制
本章节将向您介绍 GenStudio 文本模型 API 服务的调用限制及相关最佳实践,以确保服务的稳定性并防止滥用。
- 大语言模型(LLM) API
- 向量嵌入模型 API
- 重排序模型 API
TIP
本文档所述限制仅适用于预置模型。企业级用户如使用预置模型,可联系无问芯穹调整限额。企业级用户自部署的模型服务不受此限制。
了解速率限制指标
为了保障服务的稳定性及合理使用,GenStudio 会从以下维度实行 API 频率限制。
- 每分钟请求次数 (RPM):过去 1 分钟内允许的最大请求次数。
- 每天请求次数 (RPD):过去 24小时内允许的最大请求次数。
- 每分钟 Token 数量 (TPM):过去 1 分钟内允许使用的最大 Token 数量。调用任意服务所输入和生成的 Token 数量都计入该范围内。
LLM API 限频
本节描述 GenStudio 预置大语言模型 API 服务的调用限制。
单个 API Key 限制
租户下单个 API Key 受以下限制。
限制类型 | 限制数量 | 频率刷新时间窗口 | 适用 API 服务 |
---|---|---|---|
每分钟请求次数 (RPM) | 12 | 1 分钟 | 所有预置 LLM 模型 |
每天请求次数 (RPD) | 3000 | 24 小时 | 所有预置 LLM 模型 |
每分钟 Token 数量 (TPM) | 12000 | 1 分钟 | 所有预置 LLM 模型 |
租户级别限制
租户下所有用户的 API Key 共享以下限制。
限制类型 | 限制数量 | 频率刷新时间窗口 | 适用 API 服务 |
---|---|---|---|
每分钟请求次数 (RPM) | 36 | 1 分钟 | 所有预置 LLM 模型 |
每天请求次数 (RPD) | 9000 | 24 小时 | 所有预置 LLM 模型 |
每分钟 Token 数量 (TPM) | 36000 | 1 分钟 | 所有预置 LLM 模型 |
IMPORTANT
- 体验中心交互不占用 API 配额限制。
- 企业客户可联系调整。
向量嵌入模型 API 限频
本节描述 GenStudio 向量嵌入模型 API 服务的调用限制。
单个 API Key 限制
租户下单个 API Key 受以下限制。
限制类型 | 限制数量 | 频率刷新时间窗口 | 适用 API 服务 |
---|---|---|---|
每分钟请求次数 (RPM) | 1000 | 1 分钟 | 所有预置嵌入模型 |
每天请求次数 (RPD) | 250,000 | 24 小时 | 所有预置嵌入模型 |
每分钟 Token 数量 (TPM) | 500,000 | 1 分钟 | 所有预置嵌入模型 |
租户级别限制
租户下所有用户的 API Key 共享以下限制。
限制类型 | 限制数量 | 频率刷新时间窗口 | 适用 API 服务 |
---|---|---|---|
每分钟请求次数 (RPM) | 3000 | 1 分钟 | 所有预置嵌入模型 |
每天请求次数 (RPD) | 750,000 | 24 小时 | 所有预置嵌入模型 |
每分钟 Token 数量 (TPM) | 1,500,000 | 1 分钟 | 所有预置嵌入模型 |
重排序模型 API 限频
本节描述 GenStudio 重排序模型 API 服务的调用限制。
单个 API Key 限制
租户下单个 API Key 受以下限制。
限制类型 | 限制数量 | 频率刷新时间窗口 | 适用 API 服务 |
---|---|---|---|
每分钟请求次数 (RPM) | 1000 | 1 分钟 | 所有预置嵌入模型 |
每天请求次数 (RPD) | 250,000 | 24 小时 | 所有预置嵌入模型 |
每分钟 Token 数量 (TPM) | 500,000 | 1 分钟 | 所有预置嵌入模型 |
租户级别限制
租户下所有用户的 API Key 共享以下限制。
限制类型 | 限制数量 | 频率刷新时间窗口 | 适用 API 服务 |
---|---|---|---|
每分钟请求次数 (RPM) | 3000 | 1 分钟 | 所有预置嵌入模型 |
每天请求次数 (RPD) | 750,000 | 24 小时 | 所有预置嵌入模型 |
每分钟 Token 数量 (TPM) | 1,500,000 | 1 分钟 | 所有预置嵌入模型 |
监控和通知
我们提供了用量统计工具,供您实时监控 API 的使用情况。
参见文档用量统计。
HTTP 状态码
当请求超出设定的速率限制时,API 将返回以下 HTTP 状态码和错误消息:
HTTP 状态码 | 错误消息 | 触发限制类型 |
---|---|---|
429 | 当前调用过于频繁,请稍后再试。 | RPM |
429 | 今天已经调用很多次了,请明天再来试试吧。 | RPD |
429 | 当前调用数量过多,请稍后再试。 | TPM |
最佳实践
为了避免不必要的中断和提高用户体验,建议遵循以下最佳实践:
- 分散请求:避免短时间内发送大量请求,使用延时或指数退避策略合理安排请求频率。
- 监控使用量:监控您的 API Key 的调用次数和 Token 使用情况,以免意外超限。
- 错误处理:妥善处理 429 错误,例如通过暂停请求一段时间后重试。
常见问题
如果请求过程中触发了 Token 的配额上限(TPM)怎么办?
若在请求过程中超过 TPM 限制,我们会允许当前请求完成,但后续请求将受到限制。
如果请求过程中触发了内容安全策略,如何计算消耗的 Token 数量?
若在请求过程中触发内容安全策略,我们将生成的 Token 数量视为 0,但仍会统计当次请求中输入的 Token 数量。