☰
← 返回博客
/
📊 数据与AI基础设施
/
AI基础设施
📋 LLM推理基础设施测试
1. LLM推理架构
GPU集群→推理引擎(vLLM/TGI/Triton)→API网关→应用层。关键指标:TTFT(首Token时间)、TPOT(每个Token时间)、吞吐量、显存利用率。
2. 测试要点
并发请求下的响应时间
长上下文窗口的显存消耗
批量推理的吞吐能力
高负载下的稳定性和错误率