在 AIStudio 镜像中心使用 Dockerfile 自助构建最新版 vLLM 镜像在 AIStudio 镜像中心使用 Dockerfile 自助构建最新版 vLLM 镜像 ,无需访问 DockerHub立即构建
Skip to content

LLM API 计费规则

本文档详说明了预置 LLM API 服务的计费方式、计费规则、使用限制及费用查看方式。

服务等级

租户在 GenStudio 的服务等级决定了 LLM API 调用是否计费,以及默认的 LLM API 频率上限。

  • 基础服务:RPM=12、RPD=300、TPM=12000;默认情况下,租户均享受基础服务。基础服务不计费。支持在线自助升级为高级服务。
  • 高级服务:RPM=1200、RPD 不限、TPM=1200000;租户可选择升级服务,享受更高限频。高级服务根据实际 Token 用量进行后付费结算。
  • 企业服务:如果高级服务无法满足您业务增长与稳定性的需求,欢迎联系我们,我们将根据您的实际用量和需求提供个性化方案。企业服务初始状态下默认按实际 Token 用量进行后付费结算,可继续调整限频。如已购买其他服务,则按合同约定方式计费。

提示

关于 GenStudio 预置 API 的频率限制细节,详见 API 频率限制

包并发服务

GenStudio LLM 包并发服务是一种全新的计费与容量保障方式,通过购买并发槽位(Concurrency Slots),您可以在 GenStudio LLM 推理服务中享受独占的并发能力,与传统的按 Token 量计费方式相比,具有更好的可预测性与可控性。

优势

  • 优先权与稳定性:并发槽位保证了核心请求在调度中的优先执行权与更高稳定性,避免在高峰期与其他用户争夺资源。对于需要稳定服务质量的实时业务,这是最直接的优势。
  • 性价比高:与云厂商的独占实例相比,并发槽位成本更低,但能提供类似的 SLA 保障。
  • 费用可预测性:包并发服务提供两种灵活的消费方式。
    • 选择仅按槽位数收取月费,从而锁定预算。多余请求自动拒绝,由用户侧控制失败重试。
    • 或者,您也可以允许多余请求自动回退到按 Token 量计费模式,保证低延迟,同时仅为超出部分额外支付 Token 费用。
  • 灵活可控:您可以根据业务规模灵活调整槽位数量。

服务说明

  • 并发槽位定义:每个并发槽位代表 1 个正在执行的 LLM API 请求。当您购买了 10 个并发槽位,即可保证在任意时刻最多 10 个请求同时运行。

    注意

    并发槽位需要按模型购买。例如,购买 Deepseek R1 模型 10 个并发槽位,所购并发槽位仅适用于请求 DeepSeek R1 高并发专属模型(pro-deepseek-r1)。

  • 优先级保障:使用并发槽位的请求在调度中优先于按 Token 量计费请求,能够获得更稳定的响应能力。
  • 请求超出并发槽位时的处理:当您的请求数量超过已购买的并发槽位数时,您可以选择以下两种策略:
    • 直接拒绝:无槽位空闲时,多余请求直接拒绝(错误代码:429 concurrency exceeded)。此模式下,您的费用仅为并发槽位的月度订阅费,不产生额外 Token 消耗费用。
    • 转按量计费:多余请求将自动回退至按 Token 量计费模式,按照实际 Token 用量结算,确保最低延迟。
  • 槽位释放:当一个占用槽位的请求完成推理并返回结果后,该槽位立即释放,可供新的请求使用。

使用限制与配额

  • GenStudio LLM 包并发服务包并发槽位服务同样受 API 频率限制指标约束:
    • RPM(每分钟请求数)
    • RPD(每日请求数)
    • TPM(每分钟 Token 数)
  • 我们会与购买并发槽位的用户协作,合理配置上述限频参数,确保在您的业务场景下获得最顺畅的 API 使用体验。

典型使用场景

  • 预算敏感型用户:希望严格控制每月支出,可选择包并发模式并拒绝多余请求,避免溢出费用。
  • 低延迟业务:对实时性要求较高,可选择包并发模式,超出请求转按量付费,保证请求响应速度。
  • 混合型需求:既有实时延迟敏感业务,也有低敏感非关键任务,可使用灵活的购买策略。例如:
    • 为实时延迟敏感业务接入支持包并发槽位的模型(例如,pro-deekseek-r1)。
    • 低敏感非关键任务仍接入仅按量付费的模型(例如,deepseek-r1)。

免费场景

租户在 GenStudio 的服务等级为基础服务时,可免费使用预置 LLM API 服务。

免费场景还包括以下情况(与服务等级无关):

  • GenStudio 体验中心暂不计费。
  • 嵌入模型与重排序模型暂不收费。

计费场景

满足以下任意条件,需要付费使用 LLM API 服务。

  • 租户已升级为高级服务、企业服务。
  • 租户已购买 LLM 包并发服务。

如何升级服务

如需升级大语言模型服务,可前往 GenStudio 的服务列表(原"限额管理")页面自助升级。

注意

  • 升级成功后,不支持降级为基础服务。
  • 如需升级为企业服务,请联系商务或售后。
  • 如需申购包并发服务,请联系商务或售后。

查询单价

租户可在 GenStudio 服务列表页面查看全部模型价格(区分输入与输出价格)。如租户享受折扣,此处展示折后价。

GenStudio 模型广场首页不展示价格。如需查看单个模型价格,请选择模型卡片,查看输入与输出价格。如租户享受折扣,此处展示折后价。

计费细则

  • 按 Token 用量计费:从您发起 API 调用开始,至平台返回结果为止,实际消耗的 Token 数量(分为输入 Token 和输出 Token)计入计费。
    • 示例:若一次调用消耗 500 个输入 Token 和 300 个输出 Token,总计 800 Token,其中 500 个 Token 按输入单价计费,300 个 Token 按输出单价计费。
  • 首次调用模型时,生成新的后付费订单。
  • 采用后付费模式,每自然小时生成明细账单,结算并扣费。
  • 优先使用代金券抵扣,超出部分从账户余额扣除。
  • 金额计算单位为元,精度为小数点后 6 位(如 ¥0.000765)。
  • Token 用量计算单位为个,精度为整数(如 1024 Token)。
  • 每自然小时统计累计 Token 用量,计算费用,不单独计算单次调用费用。
  • 超出计费精度处理:按账期扣费时,累计金额向下取整至小数点后 6 位。

特殊情况

  • 如因内容审核触发拦截,或用户主动终止请求,或超过 Max Tokens 导致回复被截断,当次请求的输入输出 Token 消耗计入总用量。
  • 平台按小时扣费,如果发生欠费时请求尚未终止,将继续完成请求。下次充值时,将首先补缴上次欠款额度。
  • 如果低余额情况下调用量激增,可能触发平台即时结算并扣费。请随时关注您的余额,避免低余额或欠费影响业务稳定性。

费用查看

智算云平台费用中心提供租户的流水、充值入口及所有服务的订单、月账单、明细等信息。

查看实时费用

每个自然小时结束后统计过去一小时内 API 调用费用,生成账单明细。

注意

API 调用不会立即结算单次调用费用。仅支持按小时查看账单。

查看明细账单

访问费用中心账单页面,切换至「明细账单」,产品名为「预置服务按量在线调用」,相关的规格为模型名称,例如 qwen2.5-14b-instruct

  • 每个自然小时结束后生成账单明细,加入当前自然月月账单。
  • 计费公式:每自然小时累计 Token 用量 × 单价。
  • 所有时间均为北京时间 (UTC+8)。

查看月度账单

访问费用中心账单页面,切换至「月账单」,查看当月累计总消费额、余额消费情况及可开票金额。月账单包含租户所有服务费用。

可用余额告警

平台提供可用余额告警功能,在可用余额低于已设置余额阈值时,平台将向超级管理员绑定的手机号发送短信通知。您可以前往费用中心账户页面进行配置。

欠费处理

请及时关注账户余额,避免因欠费影响业务。

停用服务

在租户欠费后,平台有权且立即停止服务。包括但不限于:

  • 通过 API 调用预置 LLM 服务。

欠费错误提示

  • API 返回 HTTP 402 错误,返回相应内部返回错误码 10017。

恢复服务

  • 充值补足欠费金额。
  • 余额为正时自动恢复,无需人工操作(可能需等待约 5 分钟)。

常见问题

如何查看 Token 用量情况?

用量统计页面可查看 API Token 用量,记录时间为北京时间 (UTC+8)。用量统计页面不展示具体费用。

API 请求失败是否收费?

是的,按实际消耗 Token 量收费。若因平台故障导致失败,可联系客服申请补偿。

每日的免费额度是多少?免费用户每天可以调用多少次 LLM API?

GenStudio 不设置金额上限。租户在 GenStudio LLM API 的服务等级为基础服务时,即相当于"免费用户",可免费使用预置大语言模型(LLM API)服务。

免费场景还包括以下情况(与服务等级无关):

  • GenStudio 体验中心暂不计费。
  • 嵌入模型与重排序模型暂不收费。

为了保障服务的稳定性及合理使用,GenStudio LLM API 对不同等级的调用频率(RPM/RPD/TPD)进行了 API 频率限制。免费用户享受基础服务,具体限制为 RPM=12、RPD=300、TPM=12000。嵌入模型与重排序模型 API 服务不收费,API 频率限制也不同。

提示

关于 GenStudio 预置 API 的频率限制细节,详见 API 频率限制

基础版哪些地方服务受限?

GenStudio LLM 提供基础服务,调用 LLM API 不计费。API 频率限制为 RPM=12、RPD=300、TPM=12000,可满足日常低频对话需求。

大模型服务平台大语言模型 API(GenStudio LLM API) 基础服务的 QPS 限制是多少?

GenStudio LLM API 不直接设置固定的 QPS(每秒查询率)限制,而是采用 RPM(每分钟请求数)RPD(每天请求数)TPM(每分钟 Token 数) 的组合限流策略。

这是因为大模型请求的处理时间与 Token 长度强相关。您的实际并发上限是动态的:

  • 短文本请求:受限于 RPM(如基础服务每分钟 12 次)。
  • 长文本请求:通常受限于 TPM(如基础服务每分钟 12,000 Tokens)。

具体的配额数值取决于您的 LLM API 服务等级

是否支持消费限额或预算告警?

不支持为租户或任何租户下用户设置消费限额。

支持为租户设置可用余额告警

是否有优惠套餐?

如有大规模使用需求,可联系商务,升级为企业服务。我们将为您提供定制化方案。

对账单有疑问如何处理?

请联系售后,我们将核对记录并及时处理。