1. LLM推理架构

GPU集群→推理引擎(vLLM/TGI/Triton)→API网关→应用层。关键指标:TTFT(首Token时间)、TPOT(每个Token时间)、吞吐量、显存利用率。

2. 测试要点

  • 并发请求下的响应时间
  • 长上下文窗口的显存消耗
  • 批量推理的吞吐能力
  • 高负载下的稳定性和错误率