使用 LLM 场景业务监控

AIStudio 推理服务的「LLM 场景业务监控」功能已适配 SGLang 和 vLLM 推理引擎，可直接读取引擎暴露的监控指标（Metrics），进行可视化展示。

支持的推理引擎

LLM 场景业务监控已引擎主流版本，包括但不限于：

vLLM： 0.6、0.8、0.9、0.10、0.11
SGLang：0.4、0.5

注意

引擎不同版本之间指标可能有差异，平台暂未完美兼容所有版本，建议使用引擎较新版本。

启用推理引擎指标功能

在推理服务启动命令中，请确保开启推理引擎的 Production Metrics 指标数据输出。

SGLang 通过 Prometheus 暴露指标，必须在启动 SGLang 时添加 --enable-metrics 参数，引擎才会输出指标数据。详见 SGLang Production Metrics。
vLLM 自动开启 Production Metrics 功能，通过 vLLM OpenAI 兼容 API 服务器上的 /metrics 端点访问。无需额外启用指标功能。详见 vLLM Production Metrics。

配置推理服务监控端口

您需要向平台提供 vLLM / SGLang 监控服务的端口号，平台才能读取相关指标数据。

在创建推理服务时，填写内网配置，在监控端口一栏填写端口号，该端口号一般与 vLLM/SGLang 启动参数中 --port 参数值一致。如需帮助，详见推理服务标准部署流程。

重要

暂仅支持在创建推理服务时配置监控端口。推理服务创建完成后，不支持以任何方式修改、查看监控端口配置。

LLM 监控指标对照表

进入推理服务的详情页，可以点击服务监控，查看 LLM 场景业务监控。指标分多个视图展示，平台使用的指标名称与 SGLang/vLLM 原始指标对应关系如下表所示。

推理服务详情页指标名称	指标释义/原始指标名称
E2E_Request_Latency（单位：秒）	请求从进入到完成的全部耗时。SGLang：End-to-End Request Latency；vLLM：e2e_request_latency_seconds。
Time_to_First_Token_Latency（单位：秒）	请求从开始到首个 Token 输出的时间。SGLang：Time-To-First-Token Latency；vLLM：time_to_first_token_seconds
Num_Requests_Running	在 GPU 上运行的请求数。SGLang：Inflight Requests vLLM：num_requests_running
Num_Requests_Queuing	排队中的请求数。SGLang：Number Queued Requests；vLLM：num_requests_waiting
Input_Token_Length	请求的输入长度均值。SGLang：Input Token Length vLLM：prompt_tokens_total。
Output_Token_Length	请求输出长度的均值。SGLang：Output Token Length；vLLM：generation_tokens_total。
Time_Per_Output_Token_Latency（单位：秒）	生成 Token 延迟。SGLang：Time-Per-Output-Token Latency；vLLM：inter_token_latency_seconds
QPS	每秒请求数，不区分成功失败。
Token_Throughput（单位：Token/秒）	请求生成和输入的 Token 数，取 Prefill 与 Decode 的平均值。SGLang：Token Generation Throughput (Tokens / S)。vLLM：request_prompt_tokens + request_generation_tokens
RPM	每分钟处理的请求数量。
KV_Cache_Usage_Percentage	KV cache block 块的利用率，0-100，0 表示无利用，100表示会触发 OOM。 vLLM：kv_cache_usage_perc。
E2E_Request_Latency Heatmap	热力图表示落入该区间的数据量，冷色表示值小，暖色表示值大。横轴为时间点，纵轴为延迟时长。SGLang：参考 sglang-dashboard.json；vLLM：参考 vLLM grafana.json。
Time_to_First_Token_Latency Heatmap	热力图表示落入该区间的数据量，冷色表示值小，暖色表示值大。横轴为时间点，纵轴为延迟时长。SGLang：参考 sglang-dashboard.json；vLLM：参考 vLLM grafana.json。
Time_Per_Output_Token_Latency Heatmap	热力图表示落入该区间的数据量，冷色表示值小，暖色表示值大。横轴为时间点，纵轴为延迟时长。SGLang：参考 sglang-dashboard.json；vLLM：参考 vLLM grafana.json。

产品简介

访问 AICoder

传输文件

账号与权限

凭证管理

费用中心

通知中心

算力资源池管理

高性能存储管理

镜像中心

开发机

训练任务

推理部署

存储服务

企业服务

极值算力

AI 容器服务平台

预置模型

大语言模型 API

向量嵌入与重排序

计费与支持

ComfyUI 工作流托管

API 调用

监控与计费

产品简介

使用指南

使用 LLM 场景业务监控

支持的推理引擎

启用推理引擎指标功能

配置推理服务监控端口

LLM 监控指标对照表

使用 LLM 场景业务监控 ​

支持的推理引擎 ​

启用推理引擎指标功能 ​

配置推理服务监控端口 ​

LLM 监控指标对照表 ​

使用 LLM 场景业务监控

支持的推理引擎

启用推理引擎指标功能

配置推理服务监控端口

LLM 监控指标对照表