GenStudio LLM API 部分模型价格调整公告GenStudio LLM API 部分模型价格调整公告 ,新价格 2025 年 11 月 1 日生效调价公告
Skip to content

使用 LLM 场景业务监控

AIStudio 推理服务的「LLM 场景业务监控」功能已适配 SGLang 和 vLLM 推理引擎,可直接读取引擎暴露的监控指标(Metrics),进行可视化展示。

支持的推理引擎

LLM 场景业务监控已引擎主流版本,包括但不限于:

  • vLLM: 0.6、0.8、0.9、0.10、0.11
  • SGLang:0.4、0.5

注意

引擎不同版本之间指标可能有差异,平台暂未完美兼容所有版本,建议使用引擎较新版本。

启用推理引擎指标功能

在推理服务启动命令中,请确保开启推理引擎的 Production Metrics 指标数据输出。

  • SGLang 通过 Prometheus 暴露指标,必须在启动 SGLang 时添加 --enable-metrics 参数,引擎才会输出指标数据。详见 SGLang Production Metrics
  • vLLM 自动开启 Production Metrics 功能,通过 vLLM OpenAI 兼容 API 服务器上的 /metrics 端点访问。无需额外启用指标功能。详见 vLLM Production Metrics

配置推理服务监控端口

您需要向平台提供 vLLM / SGLang 监控服务的端口号,平台才能读取相关指标数据。

在创建推理服务时,填写内网配置,在监控端口一栏填写端口号,该端口号一般与 vLLM/SGLang 启动参数中 --port 参数值一致。如需帮助,详见推理服务标准部署流程

重要

暂仅支持在创建推理服务时配置监控端口。推理服务创建完成后,不支持以任何方式修改、查看监控端口配置。

LLM 监控指标对照表

进入推理服务的详情页,可以点击服务监控,查看 LLM 场景业务监控。指标分多个视图展示,平台使用的指标名称与 SGLang/vLLM 原始指标对应关系如下表所示。

推理服务详情页指标名称指标释义/原始指标名称
E2E_Request_Latency(单位:秒)请求从进入到完成的全部耗时。SGLang:End-to-End Request Latency;vLLM:e2e_request_latency_seconds。
Time_to_First_Token_Latency(单位:秒)请求从开始到首个 Token 输出的时间。SGLang:Time-To-First-Token Latency;vLLM:time_to_first_token_seconds
Num_Requests_Running在 GPU 上运行的请求数。SGLang:Inflight Requests vLLM:num_requests_running
Num_Requests_Queuing排队中的请求数。SGLang:Number Queued Requests;vLLM:num_requests_waiting
Input_Token_Length请求的输入长度均值。SGLang:Input Token Length vLLM:prompt_tokens_total。
Output_Token_Length请求输出长度的均值。SGLang:Output Token Length;vLLM:generation_tokens_total。
Time_Per_Output_Token_Latency(单位:秒)生成 Token 延迟。SGLang:Time-Per-Output-Token Latency;vLLM:inter_token_latency_seconds
QPS每秒请求数,不区分成功失败。
Token_Throughput(单位:Token/秒)请求生成和输入的 Token 数,取 Prefill 与 Decode 的平均值。SGLang:Token Generation Throughput (Tokens / S)。vLLM:request_prompt_tokens + request_generation_tokens
RPM每分钟处理的请求数量。
KV_Cache_Usage_PercentageKV cache block 块的利用率,0-100,0 表示无利用,100表示会触发 OOM。 vLLM:kv_cache_usage_perc。
E2E_Request_Latency Heatmap热力图表示落入该区间的数据量,冷色表示值小,暖色表示值大。横轴为时间点,纵轴为延迟时长。SGLang:参考 sglang-dashboard.jsonvLLM:参考 vLLM grafana.json
Time_to_First_Token_Latency Heatmap热力图表示落入该区间的数据量,冷色表示值小,暖色表示值大。横轴为时间点,纵轴为延迟时长。SGLang:参考 sglang-dashboard.jsonvLLM:参考 vLLM grafana.json
Time_Per_Output_Token_Latency Heatmap热力图表示落入该区间的数据量,冷色表示值小,暖色表示值大。横轴为时间点,纵轴为延迟时长。SGLang:参考 sglang-dashboard.jsonvLLM:参考 vLLM grafana.json