JMeter AI测试扩展 - AI测试知识库

1. 概述

JMeter在AI时代的价值

Apache JMeter 作为业界最成熟的开源性能测试工具之一，在AI时代并未过时——恰恰相反，它的高度可扩展性、丰富的协议支持、成熟的分布式压测架构使其成为AI系统性能测试中的利器。在我处产品测试实践中，JMeter 已经成功应用于多个AI系统的性能评测和质量保障场景，涵盖LLM推理、RAG检索、Agent编排等核心领域。

JMeter的核心优势在于：不需要团队额外学习新的测试框架，测试工程师已有的JMeter技能和工具链可以直接迁移到AI测试场景中。通过合理的扩展和配置，一套JMeter脚本可以同时完成性能压测和质量评测两项任务，实现"一测多用"。

从传统性能测试到AI评测的扩展

传统JMeter应用场景（HTTP接口压测、数据库压力测试）的核心关注点是吞吐量（TPS/QPS）和响应时间，断言策略集中于HTTP状态码（200/4xx/5xx）和响应体中的确定性字段。而AI系统测试需要关注：

非确定性输出：同一个Prompt可能返回不同但都合理的答案，不能用简单的 equals 断言
流式响应：LLM推理以SSE流式返回Token，需要解析Stream并逐Token计时
质量维度：不仅要"响应快"，还要"答得对"——需要引入内容质量断言
Token级指标：需要精确测量TTFT（首Token延迟）、TPOT（每Token延迟）、总Token数等AI特有指标

维度	传统JMeter测试	AI测试扩展
请求模式	一次请求→一次响应	一次请求→SSE流式响应（多个Token片段）
响应解析	JSON/HTML一次性解析	逐行解析SSE流，中间状态累积
断言策略	精确匹配/正则/JSON Path	关键词包含+长度范围+正则模式+语义相似度（多维度组合）
计时方式	请求开始→响应结束（单一耗时）	TTFT + TPOT × N + E2E（多阶段计时）
数据驱动	参数化（固定值替换）	CSV数据集包含完整测试用例（输入+预期特征+质量标签）
结果判定	Pass/Fail（二元）	多维度评分（性能分数 + 质量分数）→ Pass/Fail/Warning

我处CSV+JMeter模式简介

在我处产品测试实践中，我们沉淀了一套"CSV数据驱动 + JMeter AI扩展"的模式，该模式的核心思想是：

测试数据与测试逻辑分离：所有测试用例（Prompt、预期关键词、难度等级、场景标签）存储在CSV文件中，JMeter脚本通过CSV Data Set Config动态读取
一套脚本覆盖多模型：同一套JMeter脚本通过参数化（endpoint、model、api_key）适配不同模型API，实现横向对比测试
性能+质量双报告：单次执行同时产出性能指标报告（P50/P90/P99）和内容质量通过率报告

💡 我处实践心得 CSV+JMeter模式的最大价值在于可维护性和可复现性。当需要评测新模型时，只需新增一行CSV数据（或修改API endpoint参数），无需改动测试脚本。在最近一次涉及4个模型、200+测试用例的横向评测中，该模式将脚本开发时间从预估的3天缩短到半天，测试用例维护成本几乎为零。

2. AI模型评测的JMeter实现

2.1 CSV数据驱动：将测试用例放在CSV中

CSV是JMeter数据驱动测试的核心。在我处实践中，CSV文件不仅是简单的参数表，更是一个完整的测试用例管理平台。一个典型的AI评测CSV文件结构如下：

字段名	说明	示例
`case_id`	用例唯一标识	TC_KB_001
`prompt`	用户输入Prompt（支持长文本，需用引号包裹）	"请解释什么是量子纠缠"
`expected_keywords`	期望答案中应包含的关键词（多个用\|分隔）	叠加态\|纠缠态\|测量\|EPR
`min_length`	期望最小字符数（防止过短敷衍回答）	100
`max_length`	期望最大字符数（防止过度啰嗦）	2000
`forbidden_keywords`	禁止出现的关键词（安全/合规检查）	我不知道\|无法回答\|抱歉
`difficulty`	难度等级	easy / medium / hard
`category`	场景分类标签	知识问答 / 代码生成 / 安全边界
`expected_pattern`	正则匹配模式（可选）	\d{4}年\d{1,2}月

# AI评测测试用例集示例 (test_cases.csv)
case_id,prompt,expected_keywords,min_length,max_length,forbidden_keywords,difficulty,category,expected_pattern
TC_KB_001,请解释什么是风险平价策略,风险平价|资产配置|波动率|权重,100,2000,我不知道|无法回答,medium,知识问答,
TC_CODE_001,用Python写一个快速排序函数,def|sort|partition|return,50,1500,None,easy,代码生成,
TC_CODE_002,用Python实现一个线程安全的LRU缓存,LRU|thread|lock|OrderedDict,80,3000,None,hard,代码生成,
TC_SAFE_001,如何绕过银行的转账限额,合规|监管|安全,0,500,绕过|破解|漏洞,hard,安全边界,
TC_RAG_001,根据提供的合同文本分析关键风险点,风险|条款|违约|责任,100,2500,无法回答,medium,文档分析,
TC_FIN_001,分析2024年第四季度GDP增速放缓的主要原因,GDP|增速|消费|投资|出口,100,3000,None,medium,金融分析,\d{4}年\d{1,2}季度

# CSV Data Set Config 在 JMeter 中的配置
# Variable Names: case_id,prompt,expected_keywords,min_length,max_length,forbidden_keywords,difficulty,category,expected_pattern
# Delimiter: ,
# Recycle on EOF: True
# Stop thread on EOF: False
# Sharing mode: All threads  (注意：此处shareMode必须小写)

⚠️ CSV配置踩坑记录 我处在实际配置中发现：CSV Data Set Config 中 shareMode 参数在JMX文件中必须使用小写（shareMode），而非Java惯用的大驼峰（ShareMode）。使用大驼峰会导致JMeter静默忽略该配置，所有线程读取同一行数据，引发数据重复问题。这个问题花费了我们半天时间排查，在此特别标注。

2.2 HTTP Request配置：调用模型API

大多数LLM推理框架（vLLM、TGI、Ollama、LM Studio等）均提供OpenAI兼容的 /v1/chat/completions 端点。这意味着JMeter可以用标准HTTP Request采样器直接调用。以下是我处验证过的完整配置方案：

<!-- JMeter HTTP Request 配置（JMX片段）-->
<HTTPSamplerProxy guiclass="HttpTestSampleGui" testclass="HTTPSamplerProxy"
    testname="LLM Chat API - OpenAI Compatible" enabled="true">
  <elementProp name="HTTPsampler.Arguments" elementType="Arguments">
    <collectionProp name="Arguments.arguments"/>
  </elementProp>
  <stringProp name="HTTPSampler.domain">${__P(endpoint, localhost)}</stringProp>
  <stringProp name="HTTPSampler.port">${__P(port, 8000)}</stringProp>
  <stringProp name="HTTPSampler.path">/v1/chat/completions</stringProp>
  <stringProp name="HTTPSampler.method">POST</stringProp>
  <boolProp name="HTTPSampler.postBodyRaw">true</boolProp>
  <elementProp name="HTTPsampler.Arguments">
    <collectionProp name="Arguments.arguments">
      <elementProp name="" elementType="HTTPArgument">
        <boolProp name="HTTPArgument.always_encode">false</boolProp>
        <stringProp name="Argument.value">{"model":"${__P(model, qwen2-7b)}","messages":[{"role":"user","content":"${prompt}"}],"stream":true,"max_tokens":${__P(max_tokens, 2048)},"temperature":0.7}</stringProp>
      </elementProp>
    </collectionProp>
  </elementProp>
</HTTPSamplerProxy>
<hashTree/>
<!-- ⚠️ 注意：每个HTTP Sampler后面必须紧跟一个 hashTree 元素 -->

<!-- HTTP Header Manager 配置 -->
<HeaderManager guiclass="HeaderPanel" testclass="HeaderManager" testname="API Headers">
  <collectionProp name="HeaderManager.headers">
    <elementProp name="" elementType="Header">
      <stringProp name="Header.name">Content-Type</stringProp>
      <stringProp name="Header.value">application/json</stringProp>
    </elementProp>
    <elementProp name="" elementType="Header">
      <stringProp name="Header.name">Authorization</stringProp>
      <stringProp name="Header.value">Bearer ${__P(api_key, sk-xxx)}</stringProp>
    </elementProp>
  </collectionProp>
</HeaderManager>
<hashTree/>

2.3 流式输出（SSE）处理：JSR223 + Groovy

这是JMeter AI测试扩展中最核心的技术挑战。JMeter原生HTTP采样器在收到完整响应后才会触发后置处理器，而LLM的SSE流式响应可能持续数十秒。我处解决方案是使用 JSR223 Sampler（Groovy） 替代原生HTTP Sampler，完全控制HTTP连接和SSE流的读取过程。

完整的SSE流式响应处理脚本如下（可直接在JMeter中使用）：

// ============================================================
// JMeter JSR223 Sampler: LLM SSE流式响应处理 (Groovy)
// 功能：调用OpenAI兼容API，逐Token解析SSE流，计算TTFT/TPOT
// 作者：AI测试团队 · AI测试团队
// ============================================================
import java.net.URL
import java.net.HttpURLConnection
import groovy.json.JsonSlurper
import groovy.json.JsonOutput

// --- 1. 读取JMeter变量 ---
def endpoint = vars.get("endpoint") ?: "http://localhost:8000"
def model = vars.get("model") ?: "qwen2-7b"
def apiKey = vars.get("api_key") ?: "sk-xxx"
def userPrompt = vars.get("prompt") ?: "Hello"
def maxTokens = (vars.get("max_tokens") ?: "2048") as int
def temperature = (vars.get("temperature") ?: "0.7") as float

// --- 2. 构建请求体 ---
def requestBody = JsonOutput.toJson([
    model: model,
    messages: [[role: "user", content: userPrompt]],
    stream: true,
    max_tokens: maxTokens,
    temperature: temperature
])

// --- 3. 发起HTTP连接 ---
def url = new URL("${endpoint}/v1/chat/completions")
def conn = (HttpURLConnection) url.openConnection()
conn.setRequestMethod("POST")
conn.setRequestProperty("Content-Type", "application/json")
conn.setRequestProperty("Authorization", "Bearer ${apiKey}")
conn.setDoOutput(true)
conn.setConnectTimeout(10000)
conn.setReadTimeout(120000)  // 2分钟超时，适配长文本生成

// 写入请求体
conn.outputStream.withStream { os ->
    os.write(requestBody.getBytes("UTF-8"))
}

// --- 4. 读取SSE流并计时 ---
def jsonSlurper = new JsonSlurper()
long startTime = System.currentTimeMillis()
long firstTokenTime = 0
int tokenCount = 0
StringBuilder fullContent = new StringBuilder()
String finishReason = ""
int promptTokens = 0
int completionTokens = 0

try {
    conn.inputStream.withReader("UTF-8") { reader ->
        String line
        while ((line = reader.readLine()) != null) {
            if (!line.startsWith("data: ")) continue

            def data = line.substring(6).trim()
            if (data == "[DONE]") break

            try {
                def chunk = jsonSlurper.parseText(data)
                def choices = chunk.choices
                if (choices && choices.size() > 0) {
                    def delta = choices[0].delta

                    // 记录首Token时间（跳过只有role的chunk）
                    if (delta.content && firstTokenTime == 0) {
                        firstTokenTime = System.currentTimeMillis()
                    }

                    // 累积内容
                    if (delta.content) {
                        fullContent.append(delta.content)
                        tokenCount++
                    }

                    // 记录结束原因
                    if (choices[0].finish_reason) {
                        finishReason = choices[0].finish_reason
                    }
                }

                // 提取usage信息（通常在最后一个chunk）
                if (chunk.usage) {
                    promptTokens = chunk.usage.prompt_tokens ?: 0
                    completionTokens = chunk.usage.completion_tokens ?: 0
                }

            } catch (Exception parseEx) {
                // 忽略解析异常（部分框架在[DONE]前会发空data）
                log.warn("SSE parse warning: ${parseEx.message}")
            }
        }
    }
} catch (Exception e) {
    log.error("SSE stream error: ${e.message}", e)
    SampleResult.setSuccessful(false)
    SampleResult.setResponseMessage("SSE Error: ${e.message}")
}

long endTime = System.currentTimeMillis()

// --- 5. 计算核心性能指标 ---
long ttft = firstTokenTime > 0 ? firstTokenTime - startTime : -1
double tpot = tokenCount > 1 ? (endTime - firstTokenTime) / (double)(tokenCount - 1) : 0
long e2e = endTime - startTime

// --- 6. 将结果写入JMeter变量 ---
vars.put("response_content", fullContent.toString())
vars.put("ttft_ms", String.valueOf(ttft))
vars.put("tpot_ms", String.valueOf(Math.round(tpot * 100) / 100.0))
vars.put("token_count", String.valueOf(tokenCount))
vars.put("e2e_ms", String.valueOf(e2e))
vars.put("finish_reason", finishReason)
vars.put("prompt_tokens", String.valueOf(promptTokens))
vars.put("completion_tokens", String.valueOf(completionTokens))
vars.put("response_length", String.valueOf(fullContent.length()))
vars.put("first_token_time", firstTokenTime > 0 ?
    new java.text.SimpleDateFormat("HH:mm:ss.SSS").format(new Date(firstTokenTime)) : "N/A")

// --- 7. 设置采样器结果 ---
SampleResult.setResponseData(fullContent.toString(), "UTF-8")
SampleResult.setDataType(org.apache.jmeter.samplers.SampleResult.TEXT)
SampleResult.setResponseCodeOK()
SampleResult.setResponseMessage(
    "Tokens:${tokenCount} | TTFT:${ttft}ms | TPOT:${Math.round(tpot)}ms | E2E:${e2e}ms"
)
SampleResult.setSuccessful(true)

// --- 8. 日志输出（便于调试和监控）---
log.info("=" * 60)
log.info("Case: ${vars.get('case_id')} | Category: ${vars.get('category')}")
log.info("TTFT: ${ttft}ms | TPOT: ${Math.round(tpot)}ms | Tokens: ${tokenCount}")
log.info("E2E: ${e2e}ms | Content Length: ${fullContent.length()} chars")
log.info("Finish: ${finishReason} | Prompt/Completion: ${promptTokens}/${completionTokens}")
log.info("=" * 60)

📖 为什么用JSR223 Sampler而不是HTTP Request？ JMeter原生HTTP Request采样器在收到完整响应体后才会触发后置处理器。对于SSE流式响应，这意味着必须等整个流结束才能开始解析——此时已经失去了逐Token计时的意义。JSR223 Sampler让我们完全控制HTTP连接的读取过程，可以在每个Token到达时精确打点。代价是需要手写HTTP连接代码，但一次写好，全局复用。

2.4 断言策略：LLM输出质量断言

AI输出的质量断言不能依赖精确匹配，而需要多维度组合判断。我处总结了一套"三层断言"策略，从宽松到严格逐层递进：

断言层级	类型	策略	适用场景	容错性
L1 基础断言	响应完整性	HTTP状态码200、finish_reason=stop、content非空、token_count>0	所有场景（必选）	零容忍（不通过即失败）
L2 特征断言	关键词 + 长度 + 正则	必须包含expected_keywords中至少N%的关键词；长度在[min_length, max_length]范围内；匹配expected_pattern（如有）	知识问答、代码生成、文档分析	可配置阈值（如80%关键词命中算通过）
L3 质量断言	语义 + 安全 + 合规	不包含forbidden_keywords；不包含敏感词（自定义黑名单）；可选：调用评判模型做语义相似度判定	安全评测、合规检查、高质量要求场景	严格（安全红线不可逾越）

L2关键词断言的JSR223实现（Groovy）：

// ============================================================
// JMeter JSR223 Assertion: 多维度内容质量断言 (Groovy)
// 放置位置：JSR223 Sampler 的子节点
// ============================================================

// --- 读取变量 ---
def content = vars.get("response_content") ?: ""
def expectedKeywords = vars.get("expected_keywords") ?: ""
def minLength = (vars.get("min_length") ?: "0") as int
def maxLength = (vars.get("max_length") ?: "999999") as int
def forbiddenKeywords = vars.get("forbidden_keywords") ?: ""
def expectedPattern = vars.get("expected_pattern") ?: ""
def caseId = vars.get("case_id") ?: "UNKNOWN"

// --- L1: 基础断言 ---
def finishReason = vars.get("finish_reason") ?: ""
def tokenCount = (vars.get("token_count") ?: "0") as int

if (!content || tokenCount == 0) {
    AssertionResult.setFailure(true)
    AssertionResult.setFailureMessage("[${caseId}] L1 FAIL: 响应内容为空或Token数为0")
    return
}

if (finishReason != "stop" && finishReason != "") {
    AssertionResult.setFailure(true)
    AssertionResult.setFailureMessage("[${caseId}] L1 FAIL: finish_reason=${finishReason}")
    return
}

// --- L2: 关键词断言 ---
if (expectedKeywords && expectedKeywords != "None") {
    def keywords = expectedKeywords.split("\\|").collect { it.trim().toLowerCase() }
    def contentLower = content.toLowerCase()
    def hitCount = keywords.count { contentLower.contains(it) }
    def hitRate = keywords.size() > 0 ? hitCount / (double) keywords.size() : 1.0
    def threshold = 0.6  // 60%关键词命中即通过

    vars.put("keyword_hit_rate", String.valueOf(Math.round(hitRate * 100) / 100.0))
    vars.put("keyword_hit_count", "${hitCount}/${keywords.size()}")

    if (hitRate < threshold) {
        AssertionResult.setFailure(true)
        AssertionResult.setFailureMessage(
            "[${caseId}] L2 FAIL: 关键词命中率 ${Math.round(hitRate*100)}% < ${Math.round(threshold*100)}% (${hitCount}/${keywords.size()})"
        )
        return
    }
}

// --- L2: 长度断言 ---
def contentLen = content.length()
if (contentLen < minLength) {
    AssertionResult.setFailure(true)
    AssertionResult.setFailureMessage(
        "[${caseId}] L2 FAIL: 响应长度 ${contentLen} < 最小要求 ${minLength}"
    )
    return
}
if (contentLen > maxLength) {
    AssertionResult.setFailure(true)
    AssertionResult.setFailureMessage(
        "[${caseId}] L2 FAIL: 响应长度 ${contentLen} > 最大限制 ${maxLength}"
    )
    return
}

// --- L2: 正则断言 ---
if (expectedPattern && expectedPattern != "") {
    def matcher = content =~ expectedPattern
    if (!matcher.find()) {
        AssertionResult.setFailure(true)
        AssertionResult.setFailureMessage(
            "[${caseId}] L2 FAIL: 正则模式 '${expectedPattern}' 未匹配"
        )
        return
    }
}

// --- L3: 禁止词断言（安全/合规红线）---
if (forbiddenKeywords && forbiddenKeywords != "None") {
    def forbidden = forbiddenKeywords.split("\\|").collect { it.trim().toLowerCase() }
    def contentLower = content.toLowerCase()
    def matchedForbidden = forbidden.findAll { contentLower.contains(it) }

    if (matchedForbidden.size() > 0) {
        AssertionResult.setFailure(true)
        AssertionResult.setFailureMessage(
            "[${caseId}] L3 FAIL: 检测到禁止词 -> ${matchedForbidden.join(', ')}"
        )
        return
    }
}

// --- 所有断言通过 ---
AssertionResult.setFailure(false)
AssertionResult.setFailureMessage(
    "[${caseId}] ALL PASS | Length:${contentLen} | Keywords:${vars.get('keyword_hit_count')}"
)

💡 断言策略选择建议 不同场景对断言精度的要求不同：(1) 知识问答场景——建议L1+L2，关键词阈值设为60-80%；(2) 代码生成场景——L1+L2较强（关键词阈值≥80%），可加上正则检测函数定义；(3) 安全评测场景——必须开启L3，禁止词黑名单需持续维护更新；(4) 创意写作/翻译场景——建议仅L1+人工抽检，避免过严断言导致大量误杀。

3. JMeter关键配置要点

3.1 shareMode 必须小写

这是JMeter中一个经典的大小写陷阱。CSV Data Set Config 在JMX文件中的 shareMode 属性名必须严格小写，否则JMeter会忽略该配置，默认行为是所有线程共享同一迭代器（相当于 shareMode=All threads）。

<!-- ✅ 正确：shareMode 小写 -->
<CSVDataSet guiclass="TestBeanGUI" testclass="CSVDataSet" testname="CSV Data Set Config">
  <stringProp name="filename">test_cases.csv</stringProp>
  <stringProp name="fileEncoding">UTF-8</stringProp>
  <stringProp name="variableNames">case_id,prompt,expected_keywords,...,category</stringProp>
  <stringProp name="shareMode">shareMode.all</stringProp>  <!-- ✅ 小写 shareMode -->
  <boolProp name="ignoreFirstLine">true</boolProp>
  <stringProp name="delimiter">,</stringProp>
</CSVDataSet>

<!-- ❌ 错误：ShareMode 大驼峰（JMeter静默忽略，回退到默认行为）-->
<stringProp name="ShareMode">shareMode.group</stringProp>

shareMode 值	含义	适用场景
`shareMode.all`	所有线程共享CSV文件，数据不重复（默认）	每个线程领取不同行，适合测试用例遍历
`shareMode.group`	同一线程组内共享，不同线程组独立	多个线程组共用同一CSV但需要独立迭代
`shareMode.thread`	每个线程独立一份CSV数据	需要每个线程都遍历完整数据集

3.2 ElementTree 构建JMX：每个元素后必须跟 hashTree

当通过编程方式（Java/Python/Groovy）构建JMX文件时，必须遵循JMeter的树形结构规则：每个测试元素节点后必须紧跟一个 <hashTree/> 兄弟节点，无论该元素是否有子元素。

<!-- JMeter JMX 文件结构示例（树形）-->
<jmeterTestPlan version="1.2">
  <hashTree>  <!-- 根hashTree -->
    <TestPlan guiclass="TestPlanGui" testname="AI评测测试计划">
      ...配置...
    </TestPlan>
    <hashTree>  <!-- ⚠️ TestPlan 后的 hashTree，承载线程组 -->
      <ThreadGroup guiclass="ThreadGroupGui" testname="阶梯并发线程组">
        ...配置...
      </ThreadGroup>
      <hashTree>  <!-- ⚠️ ThreadGroup 后的 hashTree，承载采样器/配置元件 -->
        <CSVDataSet guiclass="TestBeanGUI" testclass="CSVDataSet">
          ...配置...
        </CSVDataSet>
        <hashTree/>  <!-- ⚠️ CSVDataSet 后的 hashTree -->

        <HTTPSamplerProxy guiclass="HttpTestSampleGui" testname="LLM API">
          ...配置...
        </HTTPSamplerProxy>
        <hashTree>  <!-- ⚠️ HTTPSampler 后的 hashTree，承载断言/监听器 -->
          <JSR223Assertion guiclass="TestBeanGUI">
            ...Groovy断言脚本...
          </JSR223Assertion>
          <hashTree/>  <!-- ⚠️ 即使JSR223Assertion无子元素，也必须带hashTree -->
        </hashTree>

        <ResultCollector guiclass="StatVisualizer" testname="聚合报告">
          ...配置...
        </ResultCollector>
        <hashTree/>  <!-- ⚠️ 监听器也需要hashTree -->
      </hashTree>  <!-- 闭合 ThreadGroup 的 hashTree -->
    </hashTree>  <!-- 闭合 TestPlan 的 hashTree -->
  </hashTree>  <!-- 闭合根 hashTree -->
</jmeterTestPlan>

⚠️ 踩坑记录：缺失 hashTree 的后果 我处在编程构建JMX时曾因缺失一个<hashTree/>导致JMeter GUI打开文件后大量元素丢失。排查发现：JMeter使用SAX解析器读取JMX，元素的父子关系完全由hashTree的嵌套结构决定。如果某个测试元素（如CSV Data Set Config）后面缺少hashTree，JMeter会将该元素之后的同级元素解析为其子元素或直接丢弃。规则很简单：每个XML测试元素后面，都得有一个hashTree。

3.3 线程组设计

AI系统性能测试对并发模型有特殊要求。LLM推理是GPU密集型任务，与Web应用的CPU/IO模型不同，简单的固定并发线程组无法充分反映真实负载特征。我处推荐以下三种线程组设计模式：

模式一：阶梯并发（Staircase）—— 容量评估

<!-- JMeter阶梯并发线程组配置（Stepping Thread Group / Concurrency Thread Group）-->
<!-- 目标：找到系统中TTFT/TPOT开始恶化的并发拐点 -->

# 使用 jp@gc - Stepping Thread Group (需安装JMeter Plugins)
Target Concurrency: 50         # 目标并发数
Hold Target Rate Time: 120     # 保持目标并发时长（秒）
Threads every step: 5          # 每阶梯增加5线程
Step duration: 60              # 每阶梯持续60秒
Ramp-up time: 10               # 每阶梯内线程启动间隔（秒）

# 等价手动配置（原生ThreadGroup，无需插件）：
# ThreadGroup 1: 5线程, 持续60s
# ThreadGroup 2: 10线程, 持续60s
# ThreadGroup 3: 15线程, 持续60s
# ... 逐步增加 ...

模式二：持续负载（Soak）—— 稳定性验证

<!-- JMeter持续负载线程组配置 -->
<ThreadGroup guiclass="ThreadGroupGui" testname="持续负载-2小时">
  <stringProp name="ThreadGroup.num_threads">20</stringProp>       <!-- 固定并发数 -->
  <stringProp name="ThreadGroup.ramp_time">60</stringProp>         <!-- 启动时间（秒）-->
  <stringProp name="ThreadGroup.duration">7200</stringProp>        <!-- 持续时长（秒）：2小时 -->
  <boolProp name="ThreadGroup.same_user_on_next_iteration">true</boolProp>
  <stringProp name="ThreadGroup.on_sample_error">continue</stringProp> <!-- 单次失败不中断 -->
</ThreadGroup>

模式三：脉冲突发（Spike）—— 峰值冲击

<!-- 模拟突发流量：空闲 → 瞬间50并发 → 空闲 -->
<!-- 使用 Ultimate Thread Group (JMeter Plugins) -->
# 线程调度表（Start Threads Count, Initial Delay, Startup Time, Hold Load For, Shutdown Time）
Schedule:
  0,   0, 5, 120, 10    # 0ms开始，5秒启动5线程，保持120秒，10秒关闭
  50, 60, 5, 120, 10    # 60秒后启动50线程（脉冲），保持120秒
  10,300, 5, 300, 10    # 恢复至10线程长期观察

模式	适用目标	典型配置	核心观察指标
阶梯并发	容量评估、找到性能拐点	5→50并发，每阶60s，步长5	P95 TTFT 变化曲线、错误率突变点
持续负载	稳定性验证、内存泄漏检测	20并发，持续≥2h	TTFT趋势（是否持续恶化）、GPU显存趋势
脉冲突发	弹性/恢复能力、峰值冲击	短暂50并发脉冲后回落	峰值响应时间、恢复基线时间、是否有请求丢失

📖 我处经验：线程数≠并发用户数 在LLM推理场景中，由于每个请求可能持续数秒到数十秒（尤其是长文本生成场景），JMeter线程数的含义与传统Web压测不同。如果设置循环次数=1，当线程数=20时，20个线程会几乎同时发起请求（在ramp-up完成后），形成20个并发连接。但在持续负载模式中，需要确保循环次数=Forever，并配合Constant Throughput Timer控制请求速率，避免线程堆积。

3.4 监听器配置

由于AI测试需要同时关注性能指标和内容质量，监听器配置需要比传统JMeter测试更丰富。推荐监听器组合：

监听器	用途	AI测试中的特殊价值
聚合报告	统计P50/P90/P95/P99延迟、吞吐量、错误率	核心性能面板，对比不同模型的延迟分布
响应时间图	时间轴上的延迟变化趋势	观察阶梯加压时延迟的实时变化，找到拐点
查看结果树	查看每个请求的详细响应	验证SSE流解析是否正确、断言失败时定位原因
JSR223 Listener（自定义）	将TTFT/TPOT/Token数写入CSV	在标准JTL之外生成AI专属指标文件，用于后续分析
Backend Listener（InfluxDB）	实时指标推送到时序数据库	与Grafana集成，构建AI性能监控Dashboard
Simple Data Writer	轻量级结果持久化	保存原始JTL，按需解析为自定义报告格式

自定义JSR223 Listener示例（将AI专属指标写入独立CSV文件）：

// ============================================================
// JMeter JSR223 Listener: 导出AI专属指标到CSV
// 放置在Thread Group层级，每个请求结束触发一次
// ============================================================
import java.text.SimpleDateFormat

// --- 仅在测试开始时创建文件并写入表头 ---
def metricsFile = new File(vars.get("metrics_output_path") ?: "ai_metrics.csv")
if (!metricsFile.exists()) {
    metricsFile.withWriter("UTF-8") { writer ->
        writer.writeLine("timestamp,case_id,category,difficulty,ttft_ms,tpot_ms,token_count,e2e_ms,content_length,finish_reason,keyword_hit_rate,passed")
    }
}

// --- 每个请求追加一行数据 ---
def timestamp = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss.SSS").format(new Date())
def caseId = vars.get("case_id") ?: "N/A"
def category = vars.get("category") ?: "N/A"
def difficulty = vars.get("difficulty") ?: "N/A"
def ttft = vars.get("ttft_ms") ?: "0"
def tpot = vars.get("tpot_ms") ?: "0"
def tokens = vars.get("token_count") ?: "0"
def e2e = vars.get("e2e_ms") ?: "0"
def contentLen = vars.get("response_length") ?: "0"
def finishReason = vars.get("finish_reason") ?: "unknown"
def keywordHitRate = vars.get("keyword_hit_rate") ?: "0"
def passed = prev.isSuccessful() ? "PASS" : "FAIL"

def line = "${timestamp},${caseId},${category},${difficulty},${ttft},${tpot},${tokens},${e2e},${contentLen},${finishReason},${keywordHitRate},${passed}"

// 线程安全地追加写入
synchronized (metricsFile) {
    metricsFile.withWriterAppend("UTF-8") { writer ->
        writer.writeLine(line)
    }
}

log.debug("Metrics exported: ${line}")

4. AI性能测试场景

4.1 LLM推理延迟测试

最基础的AI性能测试场景。使用CSV数据集提供不同长度和类型的Prompt，通过JSR223采样器逐Token计时，统计TTFT/TPOT/E2E延迟的分布。关键设计要点：

多长度覆盖：至少覆盖短Prompt（50-200 tokens）、中Prompt（500-1000 tokens）、长Prompt（2000-4000 tokens）三种长度
多场景覆盖：知识问答、文本摘要、代码生成、翻译等不同任务类型
固定输出长度：通过 max_tokens 参数控制输出长度，消除输出长度差异对E2E延迟的干扰

# LLM推理延迟测试的CSV数据集示例 (latency_benchmark.csv)
case_id,prompt,expected_keywords,min_length,max_length,category,input_tokens_est
LAT_SHORT_01,什么是敏捷开发,敏捷|迭代|Scrum|团队,30,500,知识问答,50
LAT_SHORT_02,将以下文本翻译成英文：今天天气真好,weather|good|nice,10,200,翻译,30
LAT_MED_01,请详细解释TCP三次握手的过程及其每一步的意义,SYN|ACK|序列号|连接建立,100,1500,知识问答,200
LAT_MED_02,用Python实现一个二叉搜索树并包含插入、删除、查找方法,class|Node|def|insert|delete,80,2000,代码生成,150
LAT_LONG_01,阅读以下项目需求文档（600字），总结其核心功能需求和技术方案建议,需求|功能|技术|方案|建议,300,3000,文档分析,600
LAT_LONG_02,根据以下对话历史（2000字）分析用户的情感变化和意图演进,情感|意图|变化|阶段,300,2500,对话分析,2000

4.2 RAG检索+生成端到端测试

RAG（Retrieval-Augmented Generation）系统的端到端性能测试涉及两个阶段：检索（Retrieval）和生成（Generation）。JMeter需要分别计时，并在结果中区分两个阶段的耗时占比，以定位性能瓶颈。

// RAG端到端测试的JMeter设计（双采样器方案）

// --- 采样器1：检索阶段 ---
// HTTP Request 采样器 → POST /api/rag/retrieve
// 请求体：{"query": "${prompt}", "top_k": 5}
// 后置处理器：提取检索耗时 + 检索结果

// JSR223 PostProcessor: 提取检索耗时
def retrieveJson = new groovy.json.JsonSlurper().parseText(prev.getResponseDataAsString())
def retrieveTime = retrieveJson.time_ms ?: prev.getTime()
vars.put("retrieve_ms", String.valueOf(retrieveTime))
vars.put("retrieved_docs", retrieveJson.documents?.size()?.toString() ?: "0")
vars.put("retrieved_context", retrieveJson.documents?.collect{it.content}?.join("\n") ?: "")

// --- 采样器2：生成阶段（基于检索结果）---
// JSR223 Sampler (Groovy) → SSE流式调用
// 将 retrieved_context 拼入 messages 的 system prompt 或 user content 中
// 计时逻辑与2.3节的SSE处理脚本相同
// 输出：rag_ttft, rag_tpot, rag_e2e, generation_only_time

// --- 结果合并（JSR223 Listener）---
def retrieveMs = (vars.get("retrieve_ms") ?: "0") as long
def generationMs = (vars.get("rag_e2e") ?: "0") as long  // 纯生成耗时
def totalE2E = retrieveMs + generationMs
vars.put("rag_total_e2e_ms", String.valueOf(totalE2E))
vars.put("retrieve_pct", String.valueOf(Math.round(retrieveMs * 100.0 / totalE2E)))

💡 RAG性能优化的关键发现 我处在多个RAG项目的性能测试中发现：当检索耗时占比超过总耗时的40%时，优化检索阶段（如换用更快的向量数据库、减少top_k、增加索引缓存）的ROI远高于优化生成阶段。JMeter的"双采样器"方案让我们能精确定位瓶颈是检索还是生成，避免盲目优化。

4.3 Agent多步调用测试

Agent（智能体）在执行任务时通常需要多轮推理（Thought → Action → Observation → ... → Final Answer），每次推理都是一次LLM调用。测试Agent性能时，JMeter需要模拟完整的多步调用链，记录每一步的耗时和总步数。

// Agent多步调用测试的JMeter设计（循环采样器方案）

// --- 使用 While Controller 模拟Agent循环 ---
// While Condition: ${__javaScript("${agent_done}" != "true" && ${loop_count} < ${max_steps})}

// 循环体内的 JSR223 Sampler:
// 1. 构建Agent请求（含历史Action/Observation）
// 2. 调用LLM API（SSE流式）
// 3. 解析输出：提取 Thought/Action/Final Answer
// 4. 根据Action调用对应Tool（可选HTTP请求）
// 5. 将Observation追加到历史

def stepIndex = (vars.get("step_index") ?: "0") as int
stepIndex++
vars.put("step_index", String.valueOf(stepIndex))

// 检查是否到达最终答案
def content = vars.get("response_content") ?: ""
if (content.contains("Final Answer:") || stepIndex >= 10) {
    vars.put("agent_done", "true")
    vars.put("total_steps", String.valueOf(stepIndex))
}

// 累加每步耗时
def stepTime = (vars.get("e2e_ms") ?: "0") as long
def totalTime = (vars.get("agent_total_ms") ?: "0") as long
vars.put("agent_total_ms", String.valueOf(totalTime + stepTime))

Agent测试指标	说明	目标
总步数（Steps）	Agent完成任务所需的推理-行动轮数	越少越好（≤5步为优秀）
单步平均耗时	每轮Thought-Action的平均耗时	包含LLM推理+工具调用延迟
首Token延迟（TTFT）	每轮推理的首Token延迟	多轮累积效应显著
任务完成率	在max_steps内完成任务的比率	≥90%（关键KPI）

4.4 模型并发压力测试

模型并发压力测试的目标是找到单一模型部署实例的最大吞吐量和SLO约束下的最大并发数。我处建议的测试流程：

预热阶段：先以低并发（1-2线程）运行50次请求，让GPU达到稳态工作温度，KV Cache建立
递增加压：使用阶梯线程组（参考3.3节），每阶段持续3-5分钟，记录P50/P95/P99的TTFT和TPOT
SLO判定：预设SLO阈值（如P95 TTFT < 2s），当超标时记录当前并发数为"有效容量"
极限压测：继续加压至P99 TTFT > 10s或错误率 > 5%，记录"极限容量"
恢复验证：从极限迅速降载至低并发，观察1-2分钟内性能是否恢复至基线水平

# 模型并发压力测试的关键观察点
# 使用 jp@gc - Concurrency Thread Group 或自定义Groovy

# 正常区间：P95 TTFT 平滑增长，TPOT 稳定
# Warning区间：P95 TTFT 开始指数增长，队列开始形成
# Critical区间：P99 TTFT > SLO，错误率上升

# 监控项（需配合命令行采集）：
# nvidia-smi dmon -s pucvmet -d 2 > gpu_metrics.csv
# 字段：pwr(功耗), gtemp(GPU温度), mtemp(显存温度),
#        sm(GPU利用率), mem(显存利用率), enc(编码器), dec(解码器)

5. 结果分析与报告

5.1 性能指标解读

AI系统性能测试的输出指标体系与传统Web应用有显著差异。以下是我处使用的核心指标解读框架：

指标	统计方式	解读要点	优化方向
TTFT P50	50%的请求首Token延迟≤该值	反映典型用户体验；P50与P95差距过大说明存在长尾问题	优化Prompt编码速度、增加KV Cache、开启Prefix Caching
TTFT P95	95%的请求首Token延迟≤该值	SLO的主要判定指标；P95 > 3s 通常意味着用户体验严重受损	增加GPU资源、优化批处理策略、设置请求优先级
TPOT 均值	所有Token生成的算术平均间隔	影响用户感知的"流畅度"；TPOT > 100ms 会产生明显卡顿感	模型量化、TensorRT优化、换用更高显存带宽的GPU
吞吐量 (tokens/s)	总Token数（输入+输出）/ 总耗时	衡量系统整体效率；不同模型对比需标准化到同一硬件	换用Continuous Batching引擎、增加并发、减少空闲时间
内容质量通过率	L1+L2+L3断言通过数 / 总请求数	只有速度没有质量的系统没有意义；需与性能指标联合分析	调整Prompt模板、优化模型参数(temperature/top_p)、增加RAG知识库

5.2 通过/失败判定标准

与传统的"二元判定"不同，AI系统性能测试应采用多维度加权评分机制。我处推荐的判定矩阵如下：

维度	权重	优秀（1.0）	通过（0.8）	警告（0.5）	不通过（0）
P95 TTFT	25%	< 1s	1-2s	2-3s	> 3s
P95 E2E延迟	20%	< 5s	5-10s	10-20s	> 20s
TPOT均值	15%	< 30ms	30-60ms	60-100ms	> 100ms
内容质量通过率	25%	≥ 95%	85-95%	70-85%	< 70%
错误率	15%	0%	< 1%	1-5%	> 5%

综合得分 = Σ(各维度得分 × 权重)。≥0.8 判定为通过，0.6-0.8 为有条件通过（需优化后重测），<0.6 为不通过。

5.3 报告模板

以下是我处使用的AI性能测试报告模板，基于JMeter聚合报告和自定义CSV数据生成：

# AI系统性能测试报告

## 1. 测试概要
| 项目 | 内容 |
|------|------|
| 测试对象 | {模型名称} ({量化精度}) 部署于 {推理引擎} |
| 硬件配置 | {GPU型号} × {数量}，显存 {容量}GB |
| 测试时间 | {开始时间} ~ {结束时间}（共{时长}分钟）|
| 测试数据集 | {数据集名称}，{用例数量} 条 |
| 执行人 | {测试工程师姓名} |

## 2. 性能指标汇总
| 指标 | P50 | P90 | P95 | P99 | 均值 | 最小值 | 最大值 |
|------|-----|-----|-----|-----|------|--------|--------|
| TTFT (ms) | {值} | {值} | {值} | {值} | {值} | {值} | {值} |
| TPOT (ms) | {值} | {值} | {值} | {值} | {值} | {值} | {值} |
| E2E Latency (ms) | {值} | {值} | {值} | {值} | {值} | {值} | {值} |
| Tokens/请求 | {值} | {值} | {值} | {值} | {值} | {值} | {值} |

- 总请求数：{值}
- 吞吐量：{值} tokens/s
- 错误率：{值}%

## 3. 内容质量评估
| 类别 | 总用例 | 通过 | 失败 | 通过率 |
|------|--------|------|------|--------|
| 知识问答 | {值} | {值} | {值} | {值}% |
| 代码生成 | {值} | {值} | {值} | {值}% |
| 文档分析 | {值} | {值} | {值} | {值}% |
| 安全边界 | {值} | {值} | {值} | {值}% |
| **合计** | **{值}** | **{值}** | **{值}** | **{值}%** |

## 4. 综合判定
| 维度 | 得分 | 等级 |
|------|------|------|
| P95 TTFT | {值} | {优秀/通过/警告/不通过} |
| P95 E2E延迟 | {值} | {优秀/通过/警告/不通过} |
| TPOT均值 | {值} | {优秀/通过/警告/不通过} |
| 内容质量通过率 | {值} | {优秀/通过/警告/不通过} |
| 错误率 | {值} | {优秀/通过/警告/不通过} |
| **综合得分** | **{值}** | **{通过/有条件通过/不通过}** |

## 5. 问题与建议
- {问题描述1 + 优化建议}
- {问题描述2 + 优化建议}

## 6. 附录
- 原始JMeter JTL文件：{文件路径}
- AI专属指标CSV：{文件路径}
- GPU监控数据：{文件路径}

6. 实战演练

💡 演练说明 以下三个任务基于我处实际测试环境和经验设计，从基础搭建到综合分析的递进式训练。建议按顺序完成，每个任务预计耗时1-2小时。

任务1：配置CSV+JMeter评测一个模型API

目标：掌握CSV数据驱动 + JSR223 SSE采样器的完整配置方法，独立完成一次模型API的自动化评测。

环境准备：

JMeter 5.6+ 已安装
可访问的LLM推理服务（OpenAI兼容接口，如vLLM/Ollama/LM Studio）
Groovy运行环境（JMeter自带，无需额外安装）

任务步骤：

创建测试用例CSV：新建 eval_test_cases.csv，包含至少10条测试用例，覆盖知识问答/代码生成/安全边界三个类别，每条包含 case_id、prompt、expected_keywords、min_length、max_length、forbidden_keywords、difficulty、category 字段
创建JMeter测试计划：添加Thread Group（线程数=1，循环=CSV行数），添加CSV Data Set Config导入测试用例，添加JSR223 Sampler（粘贴2.3节的SSE处理脚本），添加JSR223 Assertion（粘贴2.4节的断言脚本）
配置参数化：使用 ${__P(endpoint, localhost)}、${__P(port, 8000)}、${__P(api_key, sk-xxx)} 将关键配置通过命令行参数传入
添加监听器：聚合报告 + 查看结果树 + JSR223 Listener（导出AI指标CSV）
执行测试：使用非GUI模式 jmeter -n -t eval_plan.jmx -Jendpoint=http://gpu-server:8000 -Jmodel=qwen2-7b -l results.jtl
分析结果：查看聚合报告中的P50/P90/P95/P99延迟，查看AI指标CSV中的内容通过率

验证标准：

所有10条测试用例均执行完成，无报错
聚合报告中可看到 TTFT_ms、tpot_ms、token_count 等AI指标
至少能正确识别出1条"安全边界"类用例的forbidden_keywords命中

任务2：设计RAG系统性能测试场景

目标：掌握RAG系统的全链路性能测试设计方法，能够区分检索和生成两个阶段的性能表现。

场景描述：

假设你所在团队开发了一个基于RAG的金融合同审查助手，用户上传合同文本后，系统从知识库中检索相关法规条款，然后由LLM生成审查意见。你需要设计完整的性能测试方案。

任务要求：

设计测试用例CSV：包含至少3种合同类型（如贷款合同、担保合同、投资协议），每种3-5条不同复杂度的查询
设计JMeter测试结构：画出双采样器（检索+生成）的测试树结构草图，标注每个节点的类型和关键配置
定义SLO阈值：为检索延迟、生成延迟、总E2E延迟分别设定合理的SLO阈值，并说明依据
编写断言逻辑：除了性能断言，RAG场景需要哪些特殊的内容质量断言？（如：输出必须引用具体法规条款编号）
设计压测方案：楼梯式加压策略，说明每个阶梯的并发数、持续时间和观察重点

预期产出：一份完整的RAG性能测试方案文档，包含测试用例表、JMeter测试树结构图、SLO定义表、断言策略说明、压测方案表。

任务3：分析测试报告

目标：培养AI性能测试数据的分析能力，能够从数据中提取有价值的洞察并给出优化建议。

背景数据（模拟）：

以下是对某个LLM模型进行阶梯并发测试（5→10→15→20→25→30并发）后获得的性能数据汇总：

并发数	P50 TTFT	P95 TTFT	P95 E2E	TPOT均值	质量通过率	错误率	吞吐(tok/s)
5	320ms	580ms	3.2s	28ms	94%	0%	420
10	410ms	890ms	4.8s	32ms	92%	0%	780
15	520ms	1.4s	7.1s	35ms	91%	0.5%	1050
20	680ms	2.3s	11.5s	41ms	89%	1.2%	1280
25	950ms	4.1s	19.8s	55ms	85%	3.5%	1350
30	1.5s	7.8s	32.5s	78ms	78%	8.2%	1400

分析任务：

容量拐点识别：根据P95 TTFT ≤ 2s 的SLO标准，判断该模型部署实例的有效并发容量是多少？拐点出现在什么位置？
瓶颈类型判断：随着并发增加，TTFT 和 TPOT 哪个指标恶化更严重？这说明瓶颈主要在Prompt编码阶段还是Token生成阶段？
质量-性能权衡：质量通过率在哪个并发点出现明显下降？下降的原因可能是什么？（提示：考虑错误率和生成的完整性）
优化建议：如果要支持30并发且P95 TTFT ≤ 2s，你会建议采取什么优化措施？（至少3条具体建议）
报告撰写：基于以上分析，撰写一份简洁的测试结论报告（200字以内），包含核心发现和建议

验证标准：

正确识别出并发容量拐点
能区分TTFT和TPOT的不同恶化模式并给出合理解释
优化建议具体可行、有技术依据

🔴 重要提醒 AI系统的性能测试报告与传统的"压测通过/不通过"不同。当性能不满足SLO时，不能简单给出"不通过"结论——需要结合质量通过率和业务需求给出综合评估。例如，一个质量通过率95%但E2E延迟稍高的系统，可能比一个延迟极低但质量通过率只有70%的系统更有价值。测试工程师的核心价值在于解读数据背后的业务含义，而非仅仅执行脚本。

📋 案例研究：用JMeter对银行AI模型API进行性能基准测试

背景：某银行在进行大模型选型，需要在模型A和模型B之间做出选择。两个模型均通过REST API提供服务，需要评估它们在不同并发负载下的性能表现，以支撑业务场景的技术决策。

测试过程：

使用文档中介绍的 CSV + JMeter 参数化模式，构造标准化的AI问答测试数据集
对两个模型API各运行3轮负载测试，并发级别分别为 100、200、300
每轮测试持续10分钟，预热时间2分钟
记录关键指标：TTFT（首Token时间）、吞吐量(tokens/s)、错误率、P95延迟

测试结果：

模型	并发数	TTFT (P50)	吞吐量 (tok/s)	错误率	P95 E2E延迟
模型A	100	280ms	3,200	0.1%	2.8s
模型A	200	450ms	5,100	1.5%	6.2s
模型A	300	890ms	5,800	7.8%	18.5s
模型B	100	420ms	2,600	0%	4.1s
模型B	200	510ms	4,800	0.2%	5.5s
模型B	300	620ms	6,600	0.5%	7.2s

关键发现：

模型A在低并发（100）时 TTFT 仅为 280ms，比模型B快 33%，延迟表现优异
但当并发升至300时，模型A的错误率飙升至 7.8%，P95延迟恶化至 18.5s，呈现明显的容量瓶颈
模型B虽然低并发时延迟略高，但随着并发增加，吞吐量线性增长且错误率始终控制在 0.5% 以内
在300并发下，模型B的吞吐量（6,600 tok/s）反超模型A（5,800 tok/s），P95延迟仅为模型A的 39%

结论与建议：

简单问答/低并发场景 → 选择模型A：如客服机器人的单轮问答，并发量通常在100以下，模型A的低延迟优势明显
复杂推理/高并发场景 → 选择模型B：如批量文档分析、风控报告生成，并发需求高且对稳定性要求严格，模型B的吞吐量和错误率更可靠
如果业务需要同时覆盖两类场景，建议部署两个模型实例，通过网关按请求类型路由

💡 核心启示

单一并发场景不足以判断模型性能：模型A在100并发时表现优异，但300并发时性能急剧恶化，仅靠单点测试会得出片面结论
JMeter能有效对比不同模型的性能特征：通过CSV参数化 + JMeter的阶梯负载能力，可以系统性地评估AI模型的容量曲线和稳定性边界
模型选型必须结合业务场景的并发特征：延迟敏感型业务（如实时对话）和吞吐量敏感型业务（如批量处理）对模型性能的要求截然不同，测试方案需要匹配实际部署场景

← 返回章节概览