大模型推理性能测试

大模型推理性能的专项测试方法，覆盖首Token延迟、生成速率、并发吞吐量和资源利用率等核心指标。

🎯 模型推理性能指标

大模型推理性能与传统接口性能不同，除请求级延迟和吞吐量外，还需关注首Token延迟（TTFT）、Token生成速率（TPOT）、流式输出稳定性等。

• 首Token延迟（TTFT）：从请求发出到第一个Token的时间
• Token生成速率（TPOT）：每秒生成的Token数
• 端到端延迟：从请求到完整响应的时间
• 并发吞吐量：单位时间处理的请求数
• GPU资源利用率：显存、算力使用情况

• 固定输入输出长度的基准测试
• 输入长度阶梯递增加载测试
• 并发递增压力测试
• 长时间稳定性测试