AI测试自动化框架 - AI测试知识库

1. 概述

AI测试自动化框架是一套将大语言模型（LLM）评测与传统软件测试自动化深度融合的执行平台。它解决了"如何系统化、可重复地评估AI输出质量"这一核心问题——不同于传统测试自动化仅关注功能通过/失败，AI测试自动化需要处理语义正确性、事实准确性、安全性等多维度模糊指标。

💡 核心价值 AI测试自动化框架不是替代现有测试工具，而是在传统自动化之上增加"AI质量评估层"，让每一次模型迭代、每一次Prompt调整都能获得量化的质量反馈。

1.1 为什么需要AI测试自动化框架

在AI辅助测试实践中，团队通常面临以下痛点，需要一个统一的自动化框架来解决：

评测不可复现：手工执行AI评测，每次结果不同，无法追溯质量变化趋势
维度碎片化：准确性、安全性、性能等评测各自为战，缺乏统一的结果聚合与对比
模型迭代快：模型版本频繁更新，手工回归测试无法跟上迭代节奏
Prompt变更影响未知：调整Prompt模板后，不知道对整体质量的影响是正面还是负面
数据集管理混乱：评测数据集分散在各处，缺乏版本管理和复用机制

1.2 传统测试自动化 vs AI测试自动化

对比维度	传统测试自动化	AI测试自动化
判定方式	确定性断言（等于/包含/正则）	语义评估 + 规则断言混合判定
测试对象	API响应码、页面元素、数据库状态	LLM输出文本、RAG检索结果、Agent行为轨迹
通过标准	二元（Pass/Fail）	多维度评分（准确度/相关性/安全性/性能）
数据驱动	参数化用例（CSV/Excel）	评测数据集 + 黄金参考答案 + 评分Rubric
执行方式	定时/触发式批量执行	异步并发 + LLM调用 + 评估后处理
报告内容	通过率、失败用例列表	多维度雷达图、评分分布、回归对比、Bad Case分析
版本管理	测试脚本版本控制	脚本 + Prompt + 数据集 + 评估规则联合版本管理

2. 框架架构

2.1 核心组件

AI测试自动化框架由四大核心组件构成，各组件松耦合，通过标准接口交互：

组件	职责	关键能力
用例管理模块	评测数据集的加载、验证与版本管理	支持CSV/JSON多格式；数据集拆分（训练/验证/测试集）；内置版本追踪
执行引擎	调度评测任务，调用模型API，收集原始输出	同步/异步/并发执行；支持多模型并行对比；超时重试；限流控制
评估引擎	对模型输出进行多维度质量评估	LLM-as-Judge评分、规则校验、混合评估；可插拔的评估维度
报告模块	聚合评估结果，生成可视化报告	HTML/Markdown/JSON多格式输出；雷达图/趋势图；Bad Case下钻

2.2 数据流

一次完整的AI评测执行遵循以下数据流路径：

┌──────────────┐    ┌──────────────┐    ┌──────────────┐    ┌──────────────┐
│  评测数据集    │───▶│   执行引擎    │───▶│   模型 API    │───▶│   评估引擎    │
│ (CSV/JSON)   │    │ (并发调度)    │    │ (LLM/SDK)    │    │ (评分+规则)   │
└──────────────┘    └──────────────┘    └──────────────┘    └──────┬───────┘
                                                                    │
                                                                    ▼
                                                             ┌──────────────┐
                                                             │   报告模块    │
                                                             │ (HTML/JSON)  │
                                                             └──────────────┘

2.3 插件化设计：可插拔的评测维度

框架采用插件化架构，评估引擎支持按需加载不同的评测维度插件。每个评测维度是一个独立的评估器（Evaluator），遵循统一接口：

# 评估器统一接口（Python示例）
class BaseEvaluator:
    """评估器基类，所有评测维度插件继承此类"""
    
    def evaluate(self, input_data: dict, model_output: str, 
                 reference: str = None) -> dict:
        """
        返回: {
            "dimension": "accuracy",
            "score": 0.85,
            "max_score": 1.0,
            "reason": "回答准确但缺少边界说明",
            "metadata": {...}
        }
        """
        raise NotImplementedError

内置评测维度插件：

准确性评估器：LLM-as-Judge 对比模型输出与参考答案
相关性评估器：评估输出与用户问题的语义相关度
安全性评估器：检测有害内容、隐私泄露、越狱攻击
格式合规评估器：验证输出是否符合指定的JSON/Markdown格式
性能评估器：记录首Token延迟、端到端延迟、Token速率
自定义评估器：用户按接口规范实现，通过配置文件注册

3. 关键技术选型

3.1 测试框架对比

框架	优势	劣势	适用场景
pytest	生态丰富、插件多、fixture强大、参数化方便	原生不支持异步LLM调用场景的复杂编排	中小规模评测，团队熟悉Python
unittest	Python内置、无需额外安装	语法较冗长、缺少pytest的灵活fixture	简单评测任务
自定义框架	完全可控、针对性优化（如并发调度、流式评估）	开发维护成本高	大规模评测、需要特殊执行逻辑

✅ 推荐方案 建议以 pytest + 自定义插件 作为基础框架。pytest 提供用例管理、参数化、报告集成等基础设施；自定义插件处理 LLM 调用、并发控制、评估逻辑等 AI 特有需求。

3.2 执行引擎

AI评测的执行模式与传统测试有本质不同——核心瓶颈不在CPU/内存，而在模型API的调用延迟和并发限制。

同步执行：逐条串行调用模型API，适合小规模调试（<50条用例），简单直观
异步执行：使用 asyncio + aiohttp 实现高并发API调用，适合中等规模（50-500条）
并发执行：结合线程池/进程池 + 异步IO，支持大规模评测（500+条），需配合限流和重试策略

# 执行引擎核心配置示例（YAML）
execution:
  mode: async              # sync | async | concurrent
  max_concurrency: 10      # 最大并发API调用数
  rate_limit:
    requests_per_minute: 60
    burst: 5
  retry:
    max_attempts: 3
    backoff: exponential   # fixed | exponential
    retry_on: [timeout, rate_limit, server_error]
  timeout:
    per_request: 60s       # 单次API调用超时
    per_case: 120s         # 单条用例总超时（含重试）

3.3 评估方式

框架支持三种评估方式，可根据评测需求灵活组合使用：

LLM-as-Judge（模型裁判）：使用一个高质量的"裁判模型"（如GPT-4、Claude）对被测模型的输出进行评分。适合评估语义质量、事实准确性等主观维度。需要提供详细的评分Rubric。
规则评估：基于确定性规则（正则匹配、关键词检测、JSON Schema校验）进行判定。适合格式合规、安全红线、必含关键词等客观维度。
混合评估：先规则过滤（快速淘汰明显不合格的输出），再LLM-as-Judge精细评分（对边界案例进行语义判断），兼顾效率与准确度。

⚡ LLM-as-Judge 的注意事项 裁判模型本身也有偏见和随机性。建议：(1) 使用多个裁判模型交叉验证；(2) 裁判模型的温度参数设为0以保证一致性；(3) 定期用人工标注校准裁判模型评分。

3.4 报告生成

报告模块支持多种输出格式，满足不同场景需求：

HTML报告：可视化仪表盘，包含雷达图、分数分布直方图、Bad Case下钻列表，适合团队评审和汇报
Markdown报告：文本格式，适合嵌入PR/MR评论、CI/CD日志，便于版本控制和自动化处理
JSON报告：结构化数据，适合接入监控系统（如Grafana）、入库存储或自定义二次分析

4. 使用示例

4.1 配置驱动：YAML 定义评测任务

框架采用配置驱动设计，一个评测任务的所有参数（数据集、模型、评估维度、报告）均通过YAML配置文件定义：

# evaluation_config.yaml — 评测任务配置示例
name: "智能客服模型 v2.1 回归评测"
description: "验证v2.1版本在知识库问答场景下的质量变化"

# 被测模型配置
model:
  provider: "openai"           # openai | azure | local
  model_name: "gpt-4o"
  temperature: 0
  max_tokens: 1024
  api_base: "${OPENAI_API_BASE}"      # 支持环境变量
  api_key: "${OPENAI_API_KEY}"

# 数据集配置
dataset:
  format: "csv"
  path: "./datasets/customer_service_v3.csv"
  fields:
    input: "question"          # 输入列名
    reference: "golden_answer" # 参考答案列名（可选）
    context: "kb_context"      # 知识库上下文列名（可选）

# 评估维度配置
evaluators:
  - name: "accuracy"
    type: "llm_judge"
    judge_model: "gpt-4o"
    rubric: "从事实正确性、信息完整性、逻辑一致性三个子维度评分"
    weight: 0.4                # 在总分中的权重
  - name: "relevance"
    type: "llm_judge"
    judge_model: "gpt-4o"
    rubric: "评估回答是否直接回应用户问题，无偏离和冗余"
    weight: 0.3
  - name: "safety"
    type: "rule"
    rules:
      - block_keywords: ["违规词A", "违规词B"]
      - pattern: "敏感信息正则"
    weight: 0.2
  - name: "latency"
    type: "performance"
    metrics: ["ttft", "total_time", "tokens_per_second"]
    weight: 0.1

# 执行配置
execution:
  mode: "async"
  max_concurrency: 10
  retry:
    max_attempts: 3

# 报告配置
report:
  formats: ["html", "json", "markdown"]
  output_dir: "./reports/v2.1-regression/"
  compare_baseline: "./reports/v2.0-baseline/results.json"  # 与基线对比

4.2 数据集格式

框架支持CSV和JSON两种标准数据集格式。

CSV格式（推荐用于表格类数据）：

id,question, golden_answer, kb_context, category, difficulty
CS001,如何重置登录密码？,请前往设置-账户安全-修改密码...,用户可通过设置页面的账户安全选项...,账户相关, easy
CS002,为什么我的订单显示"待审核"？,订单待审核表示系统正在验证...,大额订单或新用户首单会触发...,订单问题, medium
CS003,退款到账需要多长时间？,退款到账时间取决于支付方式...,微信支付1-3工作日/银行卡3-7工作日...,支付相关, medium

JSON格式（推荐用于复杂结构数据）：

[
  {
    "id": "CS001",
    "input": {
      "question": "如何重置登录密码？",
      "user_profile": {"vip_level": "gold", "register_days": 365}
    },
    "reference": "请前往设置-账户安全-修改密码...",
    "metadata": {"category": "账户相关", "difficulty": "easy"}
  }
]

4.3 一行命令启动评测

# 安装
pip install ai-test-framework

# 执行评测
ai-test run -c evaluation_config.yaml

# 指定数据集和模型（覆盖配置文件）
ai-test run -c config.yaml --dataset ./custom_data.csv --model gpt-4o-mini

# 仅执行特定评估维度
ai-test run -c config.yaml --evaluators accuracy,safety

# 输出到指定目录
ai-test run -c config.yaml -o ./reports/latest/

4.4 结果解读

评测完成后，报告包含以下核心字段：

字段	说明	示例
overall_score	加权总分（0-1），各维度得分按权重加权平均	0.82
dimension_scores	各评测维度的独立得分	{"accuracy": 0.85, "relevance": 0.91, "safety": 0.98}
pass_rate	达到及格线的用例占比（默认≥0.6为及格）	87.5%
bad_cases	低分用例列表，含具体扣分原因	[{"id":"CS024","score":0.2,"reason":"答非所问"}]
latency_stats	性能统计：P50/P95/P99延迟、平均Token速率	{"p50":"1.2s", "p95":"3.8s"}
regression_delta	与基线版本对比的变化（仅对比模式下）	{"accuracy": "+0.03", "relevance": "-0.02"}
total_cases	执行的总用例数（排除执行失败的）	200

📊 报告阅读建议 优先关注 bad_cases（低分用例），分析失败模式；其次关注 regression_delta（回归变化），发现版本间的质量退化；最后用 dimension_scores 定位薄弱维度。

5. CI/CD 集成

5.1 与主流CI平台集成

AI测试自动化框架设计了命令行接口（CLI），可无缝集成到Jenkins、GitLab CI、GitHub Actions等CI/CD流水线中：

# GitHub Actions 示例 (.github/workflows/ai-eval.yml)
name: AI Model Regression Test

on:
  pull_request:
    paths:
      - 'prompts/**'        # Prompt变更触发
      - 'config/model.yaml'  # 模型配置变更触发
  schedule:
    - cron: '0 2 * * 1'    # 每周一凌晨2点定时评测

jobs:
  ai-evaluation:
    runs-on: ubuntu-latest
    steps:
      - uses: actions/checkout@v4

      - name: Setup Python
        uses: actions/setup-python@v5
        with:
          python-version: '3.11'

      - name: Install Framework
        run: pip install ai-test-framework

      - name: Run AI Evaluation
        env:
          OPENAI_API_KEY: ${{ secrets.OPENAI_API_KEY }}
        run: |
          ai-test run -c config/regression_eval.yaml -o reports/${{ github.run_id }}/

      - name: Check Quality Gate
        run: |
          ai-test gate --config config/quality_gate.yaml --report reports/${{ github.run_id }}/results.json

      - name: Upload Report
        uses: actions/upload-artifact@v4
        with:
          name: ai-eval-report
          path: reports/${{ github.run_id }}/

5.2 回归测试触发策略

触发条件	策略	执行范围
Prompt模板变更	全量评测	所有评测维度 + 全量数据集
模型版本升级	全量评测 + 基线对比	所有维度 + 全量数据集 + 自动生成回归报告
数据集新增/修改	增量评测	仅执行变更数据集关联的评测维度
定时（每日/每周）	核心维度巡检	准确性 + 安全性 + 性能，采样20%数据集
手动触发	自定义范围	通过参数指定评测维度和数据集范围

5.3 门禁设置

在CI/CD流水线中设置质量门禁（Quality Gate），当评测结果不达标时自动阻断流水线：

# quality_gate.yaml — 质量门禁配置
gate:
  rules:
    - dimension: "overall_score"
      operator: "gte"          # greater than or equal
      threshold: 0.80
      action: "block"          # block | warn
      message: "总分低于0.80，流水线阻断"

    - dimension: "safety"
      operator: "eq"
      threshold: 1.0
      action: "block"
      message: "安全评分必须为满分1.0"

    - dimension: "accuracy"
      operator: "gte"
      threshold: 0.75
      action: "block"

    - dimension: "latency.p95"
      operator: "lte"          # less than or equal
      threshold: 5.0           # 秒
      action: "warn"
      message: "P95延迟超过5秒，请关注性能退化"

    - dimension: "regression_delta.overall"
      operator: "gte"
      threshold: -0.05          # 允许最多下降5%
      action: "block"
      message: "相比基线版本下降超过5%，请检查变更"

⚠️ 门禁配置原则 门禁阈值应根据业务场景和历史数据设定，不宜过严（导致频繁阻断）也不宜过松（失去意义）。建议先以 warn 模式运行一个月，收集数据后再设定 block 阈值。

6. CSV + JMeter 模式的延伸

在实际工作中，许多团队已经在使用 JMeter + CSV 数据驱动的方式进行AI接口的性能测试。AI测试自动化框架可以与此模式深度融合，形成"功能评测 + 性能评测"的协同体系。

6.1 将 JMeter 融入自动化框架

框架提供 JMeter 集成桥接层，支持以下协同模式：

数据集共享：同一份CSV评测数据集同时用于功能评测（框架执行）和性能压测（JMeter执行），避免数据冗余
结果关联：框架的功能评测结果（准确性/安全性等）与JMeter的性能指标（TPS/响应时间/错误率）按用例ID关联，生成综合报告
统一调度：框架的CLI支持同时触发功能评测和JMeter压测，并等待两者完成后聚合结果

# 协同执行配置示例
pipeline:
  stages:
    - name: "functional_eval"
      command: "ai-test run -c config/accuracy_eval.yaml"
    - name: "perf_test"
      command: "jmeter -n -t config/ai_perf_test.jmx -Jdataset=shared_data.csv"
      depends_on: []          # 可与功能评测并行
    - name: "aggregate_report"
      command: "ai-test merge --functional reports/func/ --perf reports/perf/ -o reports/combined/"
      depends_on: ["functional_eval", "perf_test"]

6.2 性能评测与功能评测的协同

两种评测维度的协同分析，可以发现隐藏的质量问题：

协同场景	分析方法	价值
质量-性能权衡	同时对比功能得分与响应延迟，识别"快但不准"或"准但慢"的配置	辅助模型选型和参数调优决策
高负载下的质量退化	在压测条件下同时采集功能评测得分，对比空闲/满载状态下的质量变化	发现模型服务在负载压力下的降级行为
Bad Case 性能画像	分析低分用例的性能特征（是否因超时/截断导致质量下降）	区分"模型能力不足"与"基础设施问题"导致的低分
成本-质量曲线	关联Token消耗与功能评分，计算单位质量的成本	在预算约束下选择最优模型和Prompt策略

🏦 银行业落地建议 银行的AI系统（如智能客服、风控模型）通常对可靠性和响应时间都有严格要求。建议将功能评测和性能评测设置为 并行流水线阶段，两者任一不达标即阻断发布，确保AI服务质量不因性能优化而牺牲准确度，反之亦然。

7. 🎯 实战演练

以下两个实战任务帮助你掌握AI测试自动化框架的核心使用方式，建议按顺序完成，预计总耗时约 60-90 分钟。

🛠️ 任务一：编写评测配置并执行一次完整的AI评测

场景：你负责一个银行智能客服模型的回归评测，需要在发布前验证模型v2.1的质量。

📋 背景信息

被测模型：GPT-4o（模拟银行智能客服）
数据集：包含50条客户常见问题（账户、转账、理财、投诉等类别），每条包含标准答案
评测维度：准确性（40%）、相关性（30%）、安全性（20%）、响应延迟（10%）
质量门禁：总分≥0.80，安全性=1.0

步骤：

参考4.1节的YAML模板，编写一份完整的 banking_eval.yaml 配置文件
准备一份最小数据集（至少10条CSV记录），包含不同类别和难度的客户问题
在配置中至少定义3个评测维度，并为每个维度编写评分Rubric
设定合理的执行参数（并发数、超时、重试）
编写质量门禁配置 quality_gate.yaml，至少包含3条规则

评估标准：

✅ YAML配置文件结构完整，包含 model/dataset/evaluators/execution/report 五个部分
✅ 数据集至少有10条记录，覆盖3个以上业务类别
✅ 评测维度的Rubric描述具体，非笼统的"评估准确性"
✅ 质量门禁规则有明确的阈值和阻断逻辑
✅ 额外加分：在配置中设置了环境变量引用（如 ${API_KEY}）

⏱ 预计耗时：35-45 分钟

🔬 任务二：设计 JMeter + 框架协同的评测流水线

场景：你的团队已经在用JMeter对AI接口做性能压测，现需要将功能评测也纳入自动化流水线。

背景：当前JMeter脚本使用CSV数据集驱动，每次发版前手工执行JMeter压测并查看报告。AI测试自动化框架引入后，需要设计一套协同方案，让功能评测和性能评测在同一条流水线中自动执行。

步骤：

绘制协同流水线流程图，标注各阶段的输入/输出和依赖关系
设计共享的CSV数据集格式（需要同时满足框架和JMeter的字段需求）
编写流水线配置文件（参考6.1节的示例），定义功能评测和性能评测的阶段
设定综合质量门禁：功能评分≥0.80 且 P95延迟≤3秒且错误率≤1%，三者同时满足才通过
思考：如果功能评测通过但性能不达标，流水线应该如何反馈？（写出你的处理策略）

评估标准：

✅ 流水线流程图清晰，标注了各阶段的输入输出和依赖
✅ 共享数据集设计合理，字段命名一致，无冲突
✅ 流水线配置文件语法正确，逻辑完整
✅ 综合质量门禁覆盖功能和性能两个维度
✅ 对"功能通过但性能不达标"的场景给出了合理的处理策略（至少50字）

⏱ 预计耗时：30-45 分钟

💡 提示 思考共享数据集时，考虑 CSV 的列设计：哪些列是框架评估需要的（如 golden_answer），哪些是 JMeter 需要的（如 request_body、expected_status）。两种工具对列的使用方式不同，设计时需兼顾。

🎓 实战练习建议 完成以上两个任务后，建议在团队内部进行一次分享演示。重点展示：(1) YAML配置驱动的评测执行流程；(2) 质量门禁在CI/CD中的阻断效果；(3) JMeter+框架协同的综合报告。这些产出可作为团队后续实际落地的参考模板。

← 返回章节概览 ← 上一节：测试数据合成