GenStudio API 调用限制

本章节将向您介绍 GenStudio API 服务的调用限制及相关最佳实践，以确保服务的稳定性并防止滥用。

了解速率限制指标

为了保障服务的稳定性及合理使用，GenStudio 会从以下维度实行 API 频率限制。

每分钟请求次数 (RPM)：过去 1 分钟内允许的最大请求次数。
每天请求次数 (RPD)：过去 24小时内允许的最大请求次数。
每分钟 Token 数量 (TPM)：过去 1 分钟内允许使用的最大 Token 数量。调用任意服务所输入和生成的 Token 数量都计入该范围内。

文本类模型 API 限频

文本类模型包括：

大语言模型（LLM）
向量嵌入模型
重排序模型

LLM API

租户在 GenStudio 的服务等级决定了 LLM API 调用是否计费，以及享受的 API 频率上限。体验中心交互不占用 API 配额限制。

注意

GenStudio 于 2025 年 5 月正式推出 GenStudio 高级版/企业版升级服务，可付费调用预置 LLM API，并可大幅提升 API 调用频率上限。您可以通过LLM API 计费规则了解 GenStudio 基础服务版/高级版/企业版服务。

基础服务限制

租户下所有用户的 API Key 共享以下限制。基础服务不计费。

限制类型	限制数量	频率刷新时间窗口	适用 API 服务
每分钟请求次数 (RPM)	12	1 分钟	所有预置 LLM 模型
每天请求次数 (RPD)	300	24 小时	所有预置 LLM 模型
每分钟 Token 数量 (TPM)	12000	1 分钟	所有预置 LLM 模型

高级服务限制

租户下所有用户的 API Key 共享以下限制。高级服务按 Token 量计费。

限制类型	限制数量	频率刷新时间窗口	适用 API 服务
每分钟请求次数 (RPM)	1,200	1 分钟	所有预置 LLM 模型
每天请求次数 (RPD)	不限	24 小时	所有预置 LLM 模型
每分钟 Token 数量 (TPM)	1,200,000	1 分钟	所有预置 LLM 模型

升级服务

您可以在智算云平台的服务列表（原"限额管理"）页面查看租户当前的服务等级，API 限频，以及各个模型的单价（包括输入单价与输出单价）。您可在服务列表页面自助升级为高级服务。

服务列表

注意

关于预置 LLM 的计费细则，详见 LLM API 计费规则。

向量嵌入模型 API 限频

本节描述 GenStudio 向量嵌入模型 API 服务的调用限制。向量嵌入模型 API 不收费。

单个 API Key 限制

租户下单个 API Key 受以下限制。

限制类型	限制数量	频率刷新时间窗口	适用 API 服务
每分钟请求次数 (RPM)	1000	1 分钟	所有预置嵌入模型
每天请求次数 (RPD)	250,000	24 小时	所有预置嵌入模型
每分钟 Token 数量 (TPM)	500,000	1 分钟	所有预置嵌入模型

租户级别限制

租户下所有用户的 API Key 共享以下限制。

限制类型	限制数量	频率刷新时间窗口	适用 API 服务
每分钟请求次数 (RPM)	3000	1 分钟	所有预置嵌入模型
每天请求次数 (RPD)	750,000	24 小时	所有预置嵌入模型
每分钟 Token 数量 (TPM)	1,500,000	1 分钟	所有预置嵌入模型

重排序模型 API 限频

本节描述 GenStudio 重排序模型 API 服务的调用限制。重排序模型 API 不收费。

单个 API Key 限制

租户下单个 API Key 受以下限制。

限制类型	限制数量	频率刷新时间窗口	适用 API 服务
每分钟请求次数 (RPM)	1000	1 分钟	所有预置嵌入模型
每天请求次数 (RPD)	250,000	24 小时	所有预置嵌入模型
每分钟 Token 数量 (TPM)	500,000	1 分钟	所有预置嵌入模型

租户级别限制

租户下所有用户的 API Key 共享以下限制。

限制类型	限制数量	频率刷新时间窗口	适用 API 服务
每分钟请求次数 (RPM)	3000	1 分钟	所有预置嵌入模型
每天请求次数 (RPD)	750,000	24 小时	所有预置嵌入模型
每分钟 Token 数量 (TPM)	1,500,000	1 分钟	所有预置嵌入模型

视频生成类模型 API 限频

视频生成类模型包括：

生数 vidu 系列模型
Minimax hailuo 系列模型
Byteplus seedance 系列模型

租户下所有用户的 API Key 共享以下限制。

限制类型	限制数量	频率刷新时间窗口	适用 API 服务
每分钟请求次数 (RPM)	10	1 分钟	所有预置视频生成模型

监控和通知

我们提供了用量统计工具，供您实时监控 API 的使用情况。

参见文档用量统计。

429 错误

当请求超出设定的速率限制时，API 将返回 HTTP 429 状态码和错误消息。为了避免不必要的中断和提高用户体验，建议遵循以下最佳实践：

分散请求：避免短时间内发送大量请求，使用延时或指数退避策略合理安排请求频率。
监控使用量：监控您的 API Key 的调用次数和 Token 使用情况，以免意外超限。
错误处理：妥善处理 429 错误，例如通过暂停请求一段时间后重试。

详见 GenStudio API 错误码。

常见问题

如果请求过程中触发了 Token 的配额上限（TPM）怎么办？

若在请求过程中超过 TPM 限制，我们会允许当前请求完成，但后续请求将受到限制。

如果请求过程中触发了内容安全策略，如何计算消耗的 Token 数量？

若在请求过程中触发内容安全策略，我们将生成的 Token 数量视为 0，但仍会统计当次请求中输入的 Token 数量。

如果请求过程中触发了 RPM 或 RPD 上限，请求会排队吗？

不会排队。GenStudio LLM API 不支持排队机制。触发 API Rate Limit 后，API 请求会被直接拒绝，并返回 429 错误。

GenStudio LLM API 的并发数量是多少？超过并发限制怎么办？

如果您未购买 GenStudio 包并发服务，则并发数量受公共资源池并发服务能力限制。GenStudio 无法为使用公共资源池的租户保证并发数。在服务压力较大的情况下，有可能由于服务端并发能力达到上限导致偶发的请求失败。

如果您希望在 GenStudio LLM 推理服务中享受独占的并发能力，可开通包并发服务，通过购买一定并发槽位（Concurrency Slots）数，保证核心请求在调度中的优先执行权与更高稳定性，避免在高峰期与其他用户争夺资源。对于需要稳定服务质量的实时业务，这是最直接的优势。与云厂商的独占实例相比，并发槽位成本更低，但能提供类似的 SLA 保障。详见 GenStudio API 计费说明。

秒并发可以达到 RPM 的上限吗？

在未购买包并发服务的情况下，您的 API 请求将由公共算力资源处理，秒级并发理论上可以达到 RPM 的上限，但是实际行为取决于当前系统压力。

如果您需要保证一定的并发数量，欢迎购买 GenStudio LLM API 包并发服务。详见 GenStudio API 计费说明。

GenStudio API 调用限制 ​

了解速率限制指标 ​

文本类模型 API 限频 ​

LLM API ​

基础服务限制 ​

高级服务限制 ​

升级服务 ​

向量嵌入模型 API 限频 ​

单个 API Key 限制 ​

租户级别限制 ​

重排序模型 API 限频 ​

单个 API Key 限制 ​

租户级别限制 ​

视频生成类模型 API 限频 ​

监控和通知 ​

429 错误 ​

常见问题 ​

如果请求过程中触发了 Token 的配额上限（TPM）怎么办？ ​

如果请求过程中触发了内容安全策略，如何计算消耗的 Token 数量？ ​

如果请求过程中触发了 RPM 或 RPD 上限，请求会排队吗？ ​

GenStudio LLM API 的并发数量是多少？超过并发限制怎么办？ ​

秒并发可以达到 RPM 的上限吗？ ​

GenStudio API 调用限制

了解速率限制指标

文本类模型 API 限频

LLM API

基础服务限制

高级服务限制

升级服务

向量嵌入模型 API 限频

单个 API Key 限制

租户级别限制

重排序模型 API 限频

单个 API Key 限制

租户级别限制

视频生成类模型 API 限频

监控和通知

429 错误

常见问题

如果请求过程中触发了 Token 的配额上限（TPM）怎么办？

如果请求过程中触发了内容安全策略，如何计算消耗的 Token 数量？

如果请求过程中触发了 RPM 或 RPD 上限，请求会排队吗？

GenStudio LLM API 的并发数量是多少？超过并发限制怎么办？

秒并发可以达到 RPM 的上限吗？