推理服务资源与事件监控

AIStudio 推理服务监控可提供服务整体与实例级别的资源使用情况。如果使用指定预置镜像，还可以获取推理业务的性能表现、和流量变化等指标。

服务级监控

进入推理服务的详情页，可以切换到服务监控标签页，查看推理服务各个实例的资源使用情况。

alt text

推理服务级监控指标分为三类：

资源监控：适用于所有推理服务，反映推理服务的显卡、显存、内存、CPU 的使用情况。
业务监控：适用于选择了「特定预置镜像」的推理服务，提供每秒请求数、流量等推理业务通用指标。
LLM 场景业务监控：如果使用「大模型专用镜像」，可提供 TTFT（生成首个 Token 的时间）、总 Token 数等 LLM 业务指标。

提示

当前业务监控指标与 LLM 场景业务监控从推理服务镜像中采集，平台负责收集指标数据并提供可视化展示。

当前仅支持从平台预置的专用镜像中采集，例如： inference-base:v1-vllm0.4.0-torch2.1-cuda12.3-ubuntu22.04。

服务资源监控指标

默认每 30 秒获取一次数据。在监控指标图表展示时，平台会根据所选择的时间范围动态调整数据聚合粒度。

显卡使用率 %：推理服务的显卡使用率（所有实例的平均值）
显卡显存使用率 %：推理服务的显卡显存使用率 %（所有实例的平均值）
CPU 使用率 %：推理服务的 CPU 使用率 %（所有实例的平均值）
内存使用率 %：推理服务的内存使用率 %（所有实例的平均值）
运行中实例数量

通用推理业务监控指标

默认每 30 秒获取一次数据。在监控指标图表展示时，平台会根据所选择的时间范围动态调整数据聚合粒度。

alt text

QPS：每秒的请求数，按请求的 HTTP 返回码分类，在折线图中展示多条折线（所有实例的平均值）
Response：请求总数，按请求的 HTTP 返回码分类，在直方图中展示各种 HTTP 返回码对应的请求总数量（所有实例的平均值）
RT：请求的响应时间指标，包括平均响应时间和各个百分位数的响应时间（所有实例的平均值）
- avg：所有请求的平均响应时间（每段时间请求响应总时间/相应总数）
- tp80，tp90，tp95，，tp99，tp100：Top 百分位数，表示在时间范围（单位：ms）内完成响应的请求百分比。tp80 为 40 ms，表示响应速度前 80% 的请求在 40 ms 内完成。
  注意
  如果服务包含多个实例，tp 取所有实例的平均值。
Traffic：服务接收和发出的流量大小，单位为字节每秒（所有实例的平均值）

大模型场景指标

如果推理使用「大模型专用镜像」，可提供由 VLLM Metrics 直接采集的 LLM 业务指标。

alt text

e2e_request_latency：VLLM 的端到端总延迟（所有实例的平均值）
- avg：所有请求的平均响应时间（每段时间请求响应总时间/相应总数）
- tp80，tp90，tp95，，tp99，tp100：Top 百分位数，表示在时间范围（单位：ms）内完成响应的请求百分比。tp80 为 40 ms，表示响应速度前 80% 的请求在 40 ms 内完成。
  注意
  如果服务包含多个实例，tp 取所有实例的平均值。
Avg_Throughput：VLLM 的 prefill（输入）与 generation（输出）阶段的平均吞吐量（所有实例的平均值，单位 Tokens 每秒）
TTFT：VLLM 的生成第一个词所需时间（单位：ms）（所有实例的平均值）
Total_tokens：VLLM 处理请求的总 Token 数，按 prefill（输入）和 generation（输出）分别展示。

实例级监控

进入推理服务的详情页，可以点击实例监控，查看推理服务各个实例的资源使用情况。

alt text

默认每 30 秒获取一次数据。在监控指标图表展示时，平台会根据所选择的时间范围动态调整数据聚合粒度。

实例资源监控指标

显卡使用率
显卡显存使用率
CPU 使用率
内存使用率

注意

资源监控指标的使用率：实例的资源实际用量 / 实例所使用的资源规格的资源分配量。

事件监控

智算云平台会记录推理服务在生命周期中的所有事件。

访问详情页面，点击「事件记录」标签页，用于展示负载操作事件，包括事件 ID、事件名称、操作者用户名、事件发生时间等，支持筛选，方便用户追踪自己或他人对当前负载的操作记录。事件记录只保留 30 天。

产品简介

访问 AICoder

传输文件

账号与权限

凭证管理

费用中心

通知中心

算力资源池管理

高性能存储管理

镜像中心

开发机

训练任务

推理部署

存储服务

企业服务

镜像中心

极值算力

AI 容器服务平台

预置模型

大语言模型 API

向量嵌入与重排序

计费与支持

ComfyUI 工作流托管

API 调用

监控与计费

推理服务资源与事件监控