大模型推理性能测试
大模型推理性能的专项测试方法,覆盖首Token延迟、生成速率、并发吞吐量和资源利用率等核心指标。
🎯 模型推理性能指标
大模型推理性能与传统接口性能不同,除请求级延迟和吞吐量外,还需关注首Token延迟(TTFT)、Token生成速率(TPOT)、流式输出稳定性等。
📊 关键性能指标
• 首Token延迟(TTFT):从请求发出到第一个Token的时间
• Token生成速率(TPOT):每秒生成的Token数
• 端到端延迟:从请求到完整响应的时间
• 并发吞吐量:单位时间处理的请求数
• GPU资源利用率:显存、算力使用情况
🧪 测试场景设计
• 固定输入输出长度的基准测试
• 输入长度阶梯递增加载测试
• 并发递增压力测试
• 长时间稳定性测试