2024-11-21 一站式 AI 平台生日大派对!2024-11-21 一站式 AI 平台生日大派对! 无问芯穹特别推出多项超值福利!立即参与
Skip to content

GenStudio 文本类 API 调用限制

本章节将向您介绍 GenStudio 文本模型 API 服务的调用限制及相关最佳实践,以确保服务的稳定性并防止滥用。

  • 大语言模型(LLM) API
  • 向量嵌入模型 API
  • 重排序模型 API

TIP

本文档所述限制仅适用于预置模型。企业级用户如使用预置模型,可联系无问芯穹调整限额。企业级用户自部署的模型服务不受此限制。

了解速率限制指标

为了保障服务的稳定性及合理使用,GenStudio 会从以下维度实行 API 频率限制。

  • 每分钟请求次数 (RPM):过去 1 分钟内允许的最大请求次数。
  • 每天请求次数 (RPD):过去 24小时内允许的最大请求次数。
  • 每分钟 Token 数量 (TPM):过去 1 分钟内允许使用的最大 Token 数量。调用任意服务所输入和生成的 Token 数量都计入该范围内。

LLM API 限频

本节描述 GenStudio 预置大语言模型 API 服务的调用限制。

单个 API Key 限制

租户下单个 API Key 受以下限制。

限制类型限制数量频率刷新时间窗口适用 API 服务
每分钟请求次数 (RPM)121 分钟所有预置 LLM 模型
每天请求次数 (RPD)300024 小时所有预置 LLM 模型
每分钟 Token 数量 (TPM)120001 分钟所有预置 LLM 模型

租户级别限制

租户下所有用户的 API Key 共享以下限制。

限制类型限制数量频率刷新时间窗口适用 API 服务
每分钟请求次数 (RPM)361 分钟所有预置 LLM 模型
每天请求次数 (RPD)900024 小时所有预置 LLM 模型
每分钟 Token 数量 (TPM)360001 分钟所有预置 LLM 模型

IMPORTANT

  • 体验中心交互不占用 API 配额限制。
  • 企业客户可联系调整。

向量嵌入模型 API 限频

本节描述 GenStudio 向量嵌入模型 API 服务的调用限制。

单个 API Key 限制

租户下单个 API Key 受以下限制。

限制类型限制数量频率刷新时间窗口适用 API 服务
每分钟请求次数 (RPM)10001 分钟所有预置嵌入模型
每天请求次数 (RPD)250,00024 小时所有预置嵌入模型
每分钟 Token 数量 (TPM)500,0001 分钟所有预置嵌入模型

租户级别限制

租户下所有用户的 API Key 共享以下限制。

限制类型限制数量频率刷新时间窗口适用 API 服务
每分钟请求次数 (RPM)30001 分钟所有预置嵌入模型
每天请求次数 (RPD)750,00024 小时所有预置嵌入模型
每分钟 Token 数量 (TPM)1,500,0001 分钟所有预置嵌入模型

重排序模型 API 限频

本节描述 GenStudio 重排序模型 API 服务的调用限制。

单个 API Key 限制

租户下单个 API Key 受以下限制。

限制类型限制数量频率刷新时间窗口适用 API 服务
每分钟请求次数 (RPM)10001 分钟所有预置嵌入模型
每天请求次数 (RPD)250,00024 小时所有预置嵌入模型
每分钟 Token 数量 (TPM)500,0001 分钟所有预置嵌入模型

租户级别限制

租户下所有用户的 API Key 共享以下限制。

限制类型限制数量频率刷新时间窗口适用 API 服务
每分钟请求次数 (RPM)30001 分钟所有预置嵌入模型
每天请求次数 (RPD)750,00024 小时所有预置嵌入模型
每分钟 Token 数量 (TPM)1,500,0001 分钟所有预置嵌入模型

监控和通知

我们提供了用量统计工具,供您实时监控 API 的使用情况。

参见文档用量统计

HTTP 状态码

当请求超出设定的速率限制时,API 将返回以下 HTTP 状态码和错误消息:

HTTP 状态码错误消息触发限制类型
429当前调用过于频繁,请稍后再试。RPM
429今天已经调用很多次了,请明天再来试试吧。RPD
429当前调用数量过多,请稍后再试。TPM

最佳实践

为了避免不必要的中断和提高用户体验,建议遵循以下最佳实践:

  1. 分散请求:避免短时间内发送大量请求,使用延时或指数退避策略合理安排请求频率。
  2. 监控使用量:监控您的 API Key 的调用次数和 Token 使用情况,以免意外超限。
  3. 错误处理:妥善处理 429 错误,例如通过暂停请求一段时间后重试。

常见问题

如果请求过程中触发了 Token 的配额上限(TPM)怎么办?

若在请求过程中超过 TPM 限制,我们会允许当前请求完成,但后续请求将受到限制。

如果请求过程中触发了内容安全策略,如何计算消耗的 Token 数量?

若在请求过程中触发内容安全策略,我们将生成的 Token 数量视为 0,但仍会统计当次请求中输入的 Token 数量。