使用 LLM 场景业务监控
AIStudio 推理服务的「LLM 场景业务监控」功能已适配 SGLang 和 vLLM 推理引擎,可直接读取引擎暴露的监控指标(Metrics),进行可视化展示。
支持的推理引擎
LLM 场景业务监控已引擎主流版本,包括但不限于:
- vLLM: 0.6、0.8、0.9、0.10、0.11
- SGLang:0.4、0.5
注意
引擎不同版本之间指标可能有差异,平台暂未完美兼容所有版本,建议使用引擎较新版本。
启用推理引擎指标功能
在推理服务启动命令中,请确保开启推理引擎的 Production Metrics 指标数据输出。
- SGLang 通过 Prometheus 暴露指标,必须在启动 SGLang 时添加
--enable-metrics参数,引擎才会输出指标数据。详见 SGLang Production Metrics。 - vLLM 自动开启 Production Metrics 功能,通过 vLLM OpenAI 兼容 API 服务器上的
/metrics端点访问。无需额外启用指标功能。详见 vLLM Production Metrics。
配置推理服务监控端口
您需要向平台提供 vLLM / SGLang 监控服务的端口号,平台才能读取相关指标数据。
在创建推理服务时,填写内网配置,在监控端口一栏填写端口号,该端口号一般与 vLLM/SGLang 启动参数中 --port 参数值一致。如需帮助,详见推理服务标准部署流程。
重要
暂仅支持在创建推理服务时配置监控端口。推理服务创建完成后,不支持以任何方式修改、查看监控端口配置。
LLM 监控指标对照表
进入推理服务的详情页,可以点击服务监控,查看 LLM 场景业务监控。指标分多个视图展示,平台使用的指标名称与 SGLang/vLLM 原始指标对应关系如下表所示。
| 推理服务详情页指标名称 | 指标释义/原始指标名称 |
|---|---|
| E2E_Request_Latency(单位:秒) | 请求从进入到完成的全部耗时。SGLang:End-to-End Request Latency;vLLM:e2e_request_latency_seconds。 |
| Time_to_First_Token_Latency(单位:秒) | 请求从开始到首个 Token 输出的时间。SGLang:Time-To-First-Token Latency;vLLM:time_to_first_token_seconds |
| Num_Requests_Running | 在 GPU 上运行的请求数。SGLang:Inflight Requests vLLM:num_requests_running |
| Num_Requests_Queuing | 排队中的请求数。SGLang:Number Queued Requests;vLLM:num_requests_waiting |
| Input_Token_Length | 请求的输入长度均值。SGLang:Input Token Length vLLM:prompt_tokens_total。 |
| Output_Token_Length | 请求输出长度的均值。SGLang:Output Token Length;vLLM:generation_tokens_total。 |
| Time_Per_Output_Token_Latency(单位:秒) | 生成 Token 延迟。SGLang:Time-Per-Output-Token Latency;vLLM:inter_token_latency_seconds |
| QPS | 每秒请求数,不区分成功失败。 |
| Token_Throughput(单位:Token/秒) | 请求生成和输入的 Token 数,取 Prefill 与 Decode 的平均值。SGLang:Token Generation Throughput (Tokens / S)。vLLM:request_prompt_tokens + request_generation_tokens |
| RPM | 每分钟处理的请求数量。 |
| KV_Cache_Usage_Percentage | KV cache block 块的利用率,0-100,0 表示无利用,100表示会触发 OOM。 vLLM:kv_cache_usage_perc。 |
| E2E_Request_Latency Heatmap | 热力图表示落入该区间的数据量,冷色表示值小,暖色表示值大。横轴为时间点,纵轴为延迟时长。SGLang:参考 sglang-dashboard.json;vLLM:参考 vLLM grafana.json。 |
| Time_to_First_Token_Latency Heatmap | 热力图表示落入该区间的数据量,冷色表示值小,暖色表示值大。横轴为时间点,纵轴为延迟时长。SGLang:参考 sglang-dashboard.json;vLLM:参考 vLLM grafana.json。 |
| Time_Per_Output_Token_Latency Heatmap | 热力图表示落入该区间的数据量,冷色表示值小,暖色表示值大。横轴为时间点,纵轴为延迟时长。SGLang:参考 sglang-dashboard.json;vLLM:参考 vLLM grafana.json。 |