💡 使用说明
本词典是AI测试知识库的快速术语索引,收录了基础概念、评测方法论、安全测试、工具框架等领域的核心术语。每个术语包含中文名称、英文原文、简要定义和关联章节链接。建议配合各章节正文阅读以获得深入理解。
一、基础概念类
涵盖AI测试领域的核心概念,是理解整个知识体系的基石。
| 术语 | 英文 | 简要定义 | 关联章节 |
| AI测试 | AI Testing | 对AI系统进行质量验证与评估的活动,包括测试AI系统和AI辅助测试两大方向 | 01-什么是AI测试 |
| 大语言模型 | Large Language Model (LLM) | 基于Transformer架构、使用海量文本数据训练的大规模语言模型,具有涌现能力 | 05-大模型基础 |
| 评测 | Evaluation | 通过预定义的指标和方法,系统化衡量AI模型/系统在特定任务上的表现 | 06-评测体系概览 |
| 基准 | Benchmark | 标准化的测试任务和数据集,用于横向比较不同模型的能力水平 | 02-评测基准 |
| 红队测试 | Red Teaming | 模拟攻击者视角,通过对抗性测试发现AI系统的安全漏洞和脆弱点 | 03-安全评测 |
| Prompt工程 | Prompt Engineering | 设计和优化输入提示以引导大模型产生期望输出的技术实践 | Prompt库 |
| 检索增强生成 | Retrieval-Augmented Generation (RAG) | 结合外部知识检索与LLM生成的混合架构,提升回答的事实准确性和时效性 | 01-RAG系统测试 |
| 智能体 | Agent | 具有自主规划、工具调用和环境交互能力的AI系统,能够完成多步骤复杂任务 | 02-Agent测试 |
| 幻觉 | Hallucination | 模型生成看似合理但与事实不符或完全虚构的内容 | 05-大模型基础 |
| 越狱 | Jailbreak | 通过精心设计的Prompt绕过模型安全对齐机制,使其生成受限或有害内容 | 03-安全评测 |
| 偏见 | Bias | 模型在训练数据或算法中习得的系统性、不公平的倾向或刻板印象 | 02-AI伦理测试 |
| 公平性 | Fairness | AI系统在不同群体(种族、性别、年龄等)间表现一致、不产生歧视性差异的属性 | 02-AI伦理测试 |
| 可解释性 | Explainability | AI系统能够以人类可理解的方式说明其决策依据和推理过程的能力 | 06-评测体系概览 |
| 对齐 | Alignment | 确保AI系统的行为目标与人类价值观、意图和安全要求相一致的技术方向 | 02-AI伦理测试 |
| 涌现能力 | Emergent Ability | 模型参数规模超过一定阈值后突然显现的、在小模型中不存在的新能力 | 05-大模型基础 |
| 令牌 | Token | LLM处理文本的基本单位,可以是词、子词或字符,影响上下文窗口和成本 | 05-大模型基础 |
| 上下文窗口 | Context Window | 模型单次推理能处理的Token数量上限,决定了可输入的最大信息量 | 05-大模型基础 |
| 温度 | Temperature | 控制模型输出随机性的超参数,值越高输出越多样(创造性),越低越确定(保守) | 05-大模型基础 |
| 微调 | Fine-tuning | 在预训练模型基础上,使用特定领域数据进一步训练以适应特定任务的过程 | 05-大模型基础 |
| RLHF | Reinforcement Learning from Human Feedback | 基于人类反馈的强化学习方法,用于训练模型产生更符合人类偏好的输出 | 05-大模型基础 |
| 思维链 | Chain of Thought (CoT) | 引导模型展示逐步推理过程的Prompt技术,可显著提升复杂推理任务的表现 | Prompt库 |
| 少样本学习 | Few-shot Learning | 在Prompt中提供少量示例,使模型无需额外训练即可完成特定任务 | 05-大模型基础 |
| 零样本学习 | Zero-shot Learning | 模型在没有任何示例的情况下直接完成新任务,体现其泛化能力 | 05-大模型基础 |
| 嵌入 | Embedding | 将文本、图像等非结构化数据映射为稠密向量表示,保留语义相似性 | 05-大模型基础 |
| 向量数据库 | Vector Database | 专门存储和检索高维向量数据的数据库系统,是RAG架构的核心组件 | 01-RAG系统测试 |
| Transformer | Transformer | 基于自注意力机制的深度学习架构,是现代大语言模型的基础结构 | 05-大模型基础 |
| 自注意力 | Self-Attention | Transformer的核心机制,允许模型在处理序列时关注不同位置间的关联 | 05-大模型基础 |
| 多模态 | Multimodal | 能够同时处理和理解文本、图像、音频、视频等多种类型数据的AI模型 | 05-大模型基础 |
| 知识库 | Knowledge Base | 结构化/非结构化知识的集合,为RAG系统提供外部知识来源 | 01-RAG系统测试 |
| 蒸馏 | Distillation | 将大模型(教师)的知识迁移到小模型(学生)的技术,用于降低部署成本 | 05-大模型基础 |
| 训练数据 | Training Data | 用于模型预训练和微调的原始语料,其质量和多样性直接影响模型能力 | 05-大模型基础 |
| 测试数据 | Test Data | 独立于训练数据、用于评估模型泛化能力的保留数据集 | 06-评测体系概览 |
| 概念漂移 | Concept Drift | 模型部署后,现实世界的数据分布发生变化,导致原有模型性能下降 | 04-AI测试的挑战 |
| 数据泄露 | Data Leakage | 测试数据信息以某种方式混入训练过程,导致评测结果虚高 | 02-评测基准 |
| 鲁棒性 | Robustness | 系统在输入扰动、噪声、对抗样本等异常条件下保持正确行为的能力 | 04-AI测试的挑战 |
二、方法论类
2.1 测试方法论
| 术语 | 英文 | 简要定义 | 关联章节 |
| AI驱动测试开发 | AI-TDD (AI-driven Test-Driven Development) | 利用AI自动从需求生成测试用例,先编写测试再生成实现代码,AI贯穿整个TDD循环 | 01-测试用例生成 |
| AI辅助行为驱动开发 | AI-BDD (AI-assisted Behavior-Driven Development) | 用自然语言描述行为场景,AI自动生成对应的步骤定义和测试脚本 | 01-测试用例生成 |
| AI加速验收测试 | AI-ATDD (AI-accelerated Acceptance Test-Driven Development) | AI从验收条件自动生成测试用例,加速验收测试驱动的开发流程 | 01-测试用例生成 |
| LLM作为评判者 | LLM-as-Judge | 使用大语言模型作为自动评估器,对另一个模型的输出进行质量评分和判断 | 01-评测维度 |
| 基于LLM的回归测试 | LLM-based Regression Testing | 利用LLM检测新旧模型版本在相同输入下输出的语义差异,发现能力退化 | 04-场景化评测 |
| A/B测试 | A/B Testing | 同时运行两个版本的系统,通过在线指标对比评估新版本是否优于旧版本 | 03-模型选型评估 |
| 对抗测试 | Adversarial Testing | 通过构造恶意或边界输入,系统性地测试模型的安全边界和鲁棒性 | 03-安全评测 |
| 差分测试 | Differential Testing | 将同一输入发送给多个模型/版本,比较输出差异以发现异常行为 | 04-场景化评测 |
2.2 评估指标
| 术语 | 英文 | 简要定义 | 公式/说明 |
| 准确率 | Accuracy | 正确预测的样本数占总样本数的比例 | (TP + TN) / (TP + TN + FP + FN) |
| 精确率 | Precision | 预测为正例的样本中实际为正例的比例 | TP / (TP + FP) |
| 召回率 | Recall | 实际为正例的样本中被正确预测的比例 | TP / (TP + FN) |
| F1分数 | F1-Score | 精确率和召回率的调和平均数,综合衡量分类性能 | 2 × (Precision × Recall) / (Precision + Recall) |
| BLEU | Bilingual Evaluation Understudy | 基于n-gram精确匹配的机器翻译质量自动评估指标,值越高越好 | 加权n-gram精确率的几何平均 × 长度惩罚因子 |
| ROUGE | Recall-Oriented Understudy for Gisting Evaluation | 面向召回率的文本摘要评估指标,衡量生成文本与参考文本的重叠度 | ROUGE-N/ROUGE-L,基于n-gram或最长公共子序列 |
| METEOR | Metric for Evaluation of Translation with Explicit ORdering | 考虑同义词、词形变化和词序的机器翻译评估指标 | 基于单字精确率和召回率的调和平均 + 词序惩罚 |
| 困惑度 | Perplexity (PPL) | 衡量语言模型对测试数据预测能力的指标,值越低表示模型越好 | exp(交叉熵损失),表示模型对下一个Token的"惊讶程度" |
| 交叉熵损失 | Cross-Entropy Loss | 衡量模型预测概率分布与真实分布之间差异的损失函数 | −∑ p(x) log q(x),是语言模型训练的核心优化目标 |
| 语义相似度 | Semantic Similarity | 衡量两段文本在语义层面相似程度的指标,常用BERTScore或Sentence Embedding | 基于Embedding向量的余弦相似度计算 |
| BERTScore | BERTScore | 基于BERT上下文Embedding的文本生成质量评估指标,不依赖精确n-gram匹配 | 生成文本和参考文本Token嵌入的余弦相似度 |
| METEOR | Metric for Evaluation of Translation with Explicit ORdering | 考虑同义词匹配和词序的机器翻译评估指标 | 加权F-mean + 词序碎片惩罚 |
2.3 安全测试指标
| 术语 | 英文 | 简要定义 | 计算方法 |
| 攻击成功率 | Attack Success Rate (ASR) | 对抗性攻击成功绕过安全防护、使模型产生有害输出的比例 | 成功攻击次数 / 总攻击尝试次数 × 100% |
| 拦截率 | Block Rate / Refusal Rate | 模型正确拒绝回答不安全/有害请求的比例,衡量安全防护的召回率 | 正确拦截次数 / 应拦截请求总数 × 100% |
| 漏放率 | Miss Rate / Pass Rate | 本应被拦截的有害请求被模型放行并产生回答的比例(安全漏报) | 漏放次数 / 应拦截请求总数 × 100% |
| 误拒率 | False Refusal Rate (FRR) | 模型错误地将安全/合法的请求判定为有害并拒答的比例(安全误报) | 误拒次数 / 安全请求总数 × 100% |
| 有害内容生成率 | Harmful Content Generation Rate | 模型在正常对话中自发产生有害/不安全内容的比例 | 有害输出次数 / 总输出次数 × 100% |
| 安全评分 | Safety Score | 综合评估模型安全表现的多维加权评分,通常包含拦截率、ASR等多个子维度 | 加权综合多个安全子指标 |
| 过拒绝率 | Over-Refusal Rate | 模型因安全对齐过度而拒绝合理、无害请求的比例(安全性的副作用) | 过度拒绝次数 / 安全合法请求总数 × 100% |
⚖️ 安全指标的平衡
拦截率和误拒率是一对矛盾指标——过于严格的拦截策略会提升误拒率,影响用户体验。优秀的安全系统需要在两者之间找到平衡,通常以"高拦截率 + 低误拒率"为优化目标。
三、工具类
3.1 评测工具
| 工具名称 | 类型 | 简要说明 | 核心能力 |
| lm-eval-harness | 开源评测框架 | EleutherAI推出的LLM统一评测框架,支持200+标准Benchmark | 零样本/少样本评测、多任务批量评测、标准化结果输出 |
| DeepEval | 开源评测框架 | 面向LLM应用的单元测试风格评测框架,类似pytest的AI测试体验 | 断言式评测、14+内置指标、LLM-as-Judge、RAG评估 |
| RAGAS | RAG评测工具 | 专为RAG系统设计的评测框架,评估检索和生成质量 | 忠实度、答案相关性、上下文召回率、上下文精确率 |
| OpenCompass | 开源评测平台 | 上海AI实验室推出的全维度LLM评测平台 | 多模态评测、主观评测、长文本评测、安全评测 |
| Promptfoo | Prompt评测工具 | 用于Prompt质量对比和回归测试的命令行/Web工具 | 多模型Prompt对比、自动评分、回归检测 |
| Trulens | 应用评测工具 | TruEra推出的LLM应用评测与可观测性框架 | 反馈函数、RAG三元组评估、应用可观测性 |
| LangSmith | LLM应用平台 | LangChain官方推出的LLM应用全生命周期管理平台 | 调试追踪、数据集管理、自动评测、回归测试、人工标注 |
3.2 安全测试工具
| 工具名称 | 类型 | 简要说明 | 核心能力 |
| Garak | LLM漏洞扫描 | NVIDIA开源的LLM安全漏洞自动扫描工具 | 多类型漏洞探测、标准化输出格式、可扩展插件架构 |
| PyRIT | 红队测试框架 | Microsoft开源的AI红队自动化测试框架 | 攻击编排、多轮对话攻击、评分器、转换器 |
| Giskard | AI质量与安全 | 开源AI模型质量与安全测试库,覆盖LLM和传统ML | 偏见检测、幻觉检测、对抗鲁棒性测试、RAG评估 |
| LLM Guard | 安全防护中间件 | LLM输入/输出安全过滤库 | Prompt注入检测、敏感信息脱敏、有害内容过滤 |
| Guardrails AI | 输出护栏 | 为LLM添加可验证的输出约束和格式校验 | 结构化输出、事实校验、PII检测、合规检查 |
3.3 开发与测试框架
| 工具名称 | 类型 | 简要说明 | 核心能力 |
| LangChain | LLM应用框架 | 最流行的LLM应用开发框架,提供链式调用和Agent抽象 | Prompt模板、链式编排、Agent/Tool抽象、记忆管理 |
| LlamaIndex | 数据框架 | 面向LLM的数据连接框架,专注于RAG场景 | 多源数据接入、索引构建、高级检索策略、查询引擎 |
| DSPy | Prompt编程框架 | Stanford推出的声明式Prompt编程框架,将Prompt视为可优化程序 | 声明式模块、自动Prompt优化、编译器概念 |
| CrewAI | 多Agent框架 | 多Agent协作编排框架,支持角色定义和任务分配 | 角色定义、任务委派、多Agent协作、工作流编排 |
| AutoGen | 多Agent框架 | Microsoft开源的多Agent对话框架 | Agent对话模式、人工介入、代码执行Agent、群聊拓扑 |
| VLLM | 推理引擎 | 高性能LLM推理服务引擎,用于模型部署和服务 | PagedAttention、连续批处理、高吞吐推理 |
🛠️ 工具选择建议
评测工具推荐从 DeepEval 或 lm-eval-harness 入手;安全测试推荐 Garak + PyRIT 组合;应用开发框架根据场景选择——通用编排选 LangChain,RAG场景选 LlamaIndex,多Agent场景选 CrewAI/AutoGen。
四、中英文对照索引
按英文字母序排列,方便快速查阅。
| 英文 | 中文 | 缩写 |
| A/B Testing | A/B测试 | — |
| Accuracy | 准确率 | — |
| Adversarial Testing | 对抗测试 | — |
| Agent | 智能体 | — |
| AI-TDD | AI驱动测试开发 | — |
| Alignment | 对齐 | — |
| Attack Success Rate | 攻击成功率 | ASR |
| AutoGen | 微软多Agent框架 | — |
| Benchmark | 基准 | — |
| BERTScore | BERT语义评分 | — |
| Bias | 偏见 | — |
| BLEU | 双语评估替换指标 | — |
| Block Rate | 拦截率 | — |
| Chain of Thought | 思维链 | CoT |
| Concept Drift | 概念漂移 | — |
| Context Window | 上下文窗口 | — |
| CrewAI | 多Agent协作框架 | — |
| Cross-Entropy Loss | 交叉熵损失 | — |
| Data Leakage | 数据泄露 | — |
| DeepEval | LLM单元测试评测框架 | — |
| Differential Testing | 差分测试 | — |
| Distillation | 蒸馏 | — |
| DSPy | 声明式Prompt编程框架 | — |
| Embedding | 嵌入 | — |
| Emergent Ability | 涌现能力 | — |
| Evaluation | 评测 | — |
| Explainability | 可解释性 | — |
| F1-Score | F1分数 | — |
| Fairness | 公平性 | — |
| False Refusal Rate | 误拒率 | FRR |
| Few-shot Learning | 少样本学习 | — |
| Fine-tuning | 微调 | — |
| Garak | NVIDIA LLM漏洞扫描 | — |
| Giskard | AI质量与安全测试库 | — |
| Guardrails AI | 输出护栏框架 | — |
| Hallucination | 幻觉 | — |
| Jailbreak | 越狱 | — |
| Knowledge Base | 知识库 | — |
| LangChain | LLM应用开发框架 | — |
| LangSmith | LLM应用管理平台 | — |
| LlamaIndex | LLM数据框架 | — |
| LLM-as-Judge | LLM作为评判者 | — |
| LLM Guard | LLM安全防护中间件 | — |
| lm-eval-harness | LLM统一评测框架 | — |
| METEOR | 翻译质量评估指标 | — |
| Miss Rate | 漏放率 | — |
| Multimodal | 多模态 | — |
| OpenCompass | 全维度LLM评测平台 | — |
| Over-Refusal Rate | 过拒绝率 | — |
| Perplexity | 困惑度 | PPL |
| Precision | 精确率 | — |
| Prompt Engineering | Prompt工程 | — |
| Promptfoo | Prompt评测对比工具 | — |
| PyRIT | 微软AI红队测试框架 | — |
| RAGAS | RAG评测框架 | — |
| Recall | 召回率 | — |
| Red Teaming | 红队测试 | — |
| Reinforcement Learning from Human Feedback | 基于人类反馈的强化学习 | RLHF |
| Retrieval-Augmented Generation | 检索增强生成 | RAG |
| Robustness | 鲁棒性 | — |
| ROUGE | 召回率导向的摘要评估 | — |
| Safety Score | 安全评分 | — |
| Self-Attention | 自注意力 | — |
| Semantic Similarity | 语义相似度 | — |
| Temperature | 温度 | — |
| Test Data | 测试数据 | — |
| Token | 令牌 | — |
| Training Data | 训练数据 | — |
| Transformer | Transformer架构 | — |
| Trulens | LLM应用评测框架 | — |
| Vector Database | 向量数据库 | — |
| VLLM | 高性能LLM推理引擎 | — |
| Zero-shot Learning | 零样本学习 | — |