Skip to content

推理服务监控

AIStudio 推理服务监控可提供服务整体与实例级别的资源使用情况。如果使用指定预置镜像,还可以获取推理业务的性能表现、和流量变化等指标。

服务级监控

进入推理服务的详情页,可以切换到服务监控标签页,查看推理服务各个实例的资源使用情况。

alt text

推理服务级监控指标分为三类:

  • 资源监控:适用于所有推理服务,反映推理服务的显卡、显存、内存、CPU 的使用情况。
  • 业务监控:适用于选择了「特定预置镜像」的推理服务,提供每秒请求数、流量等推理业务通用指标。
  • LLM 场景业务监控:如果使用「大模型专用镜像」,可提供 TTFT(生成首个 Token 的时间)、总 Token 数等 LLM 业务指标。

TIP

当前业务监控指标与 LLM 场景业务监控从推理服务镜像中采集,平台负责收集指标数据并提供可视化展示。

当前仅支持从平台预置的专用镜像中采集,例如: inference-base:v1-vllm0.4.0-torch2.1-cuda12.3-ubuntu22.04

服务资源监控指标

默认每 30 秒获取一次数据。在监控指标图表展示时,平台会根据所选择的时间范围动态调整数据聚合粒度。

  • 显卡使用率 %:推理服务的显卡使用率(所有实例的平均值)
  • 显卡显存使用率 %:推理服务的的显卡显存使用率 %(所有实例的平均值)
  • CPU 使用率 %:推理服务的的 CPU 使用率 %(所有实例的平均值)
  • 内存使用率 %:推理服务的内存使用率 %(所有实例的平均值)
  • 运行中实例数量

通用推理业务监控指标

默认每 30 秒获取一次数据。在监控指标图表展示时,平台会根据所选择的时间范围动态调整数据聚合粒度。

alt text

  • QPS:每秒的请求数,按请求的 HTTP 返回码分类,在折线图中展示多条折线(所有实例的平均值)
  • Response:请求总数,按请求的 HTTP 返回码分类,在直方图中展示各种 HTTP 返回码对应的请求总数量(所有实例的平均值)
  • RT:请求的响应时间指标,包括平均响应时间和各个百分位数的响应时间(所有实例的平均值)
    • avg:所有请求的平均响应时间(每段时间请求响应总时间/相应总数)
    • tp80,tp90,tp95,,tp99,tp100:Top 百分位数,表示在时间范围(单位:ms)内完成响应的请求百分比。tp80 为 40 ms,表示响应速度前 80% 的请求在 40 ms 内完成。

      NOTE

      如果服务包含多个实例,tp 取所有实例的平均值。

  • Traffic:服务接收和发出的流量大小,单位为字节每秒(所有实例的平均值)

大模型场景指标

如果推理使用「大模型专用镜像」,可提供由 VLLM Metrics 直接采集的 LLM 业务指标。

alt text

  • e2e_request_latency:VLLM 的端到端总延迟(所有实例的平均值)
    • avg:所有请求的平均响应时间(每段时间请求响应总时间/相应总数)
    • tp80,tp90,tp95,,tp99,tp100:Top 百分位数,表示在时间范围(单位:ms)内完成响应的请求百分比。tp80 为 40 ms,表示响应速度前 80% 的请求在 40 ms 内完成。

      NOTE

      如果服务包含多个实例,tp 取所有实例的平均值。

  • Avg_Throughput:VLLM 的 prefill(输入)与 generation(输出)阶段的平均吞吐量(所有实例的平均值,单位 Tokens 每秒)
  • TTFT:VLLM 的生成第一个词所需时间(单位:ms)(所有实例的平均值)
  • Total_tokens:VLLM 处理请求的总 Token 数,按 prefill(输入)和 generation(输出)分别展示。

实例级监控

进入推理服务的详情页,可以点击实例监控,查看推理服务各个实例的资源使用情况。

alt text

默认每 30 秒获取一次数据。在监控指标图表展示时,平台会根据所选择的时间范围动态调整数据聚合粒度。

实例资源监控指标

  • 显卡使用率
  • 显卡显存使用率
  • CPU 使用率
  • 内存使用率

NOTE

资源监控指标的使用率:实例的资源实际用量 / 实例所使用的资源规格的资源分配量。