AI测试术语词典 - AI测试知识库

💡 使用说明
本词典是AI测试知识库的快速术语索引，收录了基础概念、评测方法论、安全测试、工具框架等领域的核心术语。每个术语包含中文名称、英文原文、简要定义和关联章节链接。建议配合各章节正文阅读以获得深入理解。

一、基础概念类

涵盖AI测试领域的核心概念，是理解整个知识体系的基石。

术语	英文	简要定义	关联章节
AI测试	AI Testing	对AI系统进行质量验证与评估的活动，包括测试AI系统和AI辅助测试两大方向	01-什么是AI测试
大语言模型	Large Language Model (LLM)	基于Transformer架构、使用海量文本数据训练的大规模语言模型，具有涌现能力	05-大模型基础
评测	Evaluation	通过预定义的指标和方法，系统化衡量AI模型/系统在特定任务上的表现	06-评测体系概览
基准	Benchmark	标准化的测试任务和数据集，用于横向比较不同模型的能力水平	02-评测基准
红队测试	Red Teaming	模拟攻击者视角，通过对抗性测试发现AI系统的安全漏洞和脆弱点	03-安全评测
Prompt工程	Prompt Engineering	设计和优化输入提示以引导大模型产生期望输出的技术实践	Prompt库
检索增强生成	Retrieval-Augmented Generation (RAG)	结合外部知识检索与LLM生成的混合架构，提升回答的事实准确性和时效性	01-RAG系统测试
智能体	Agent	具有自主规划、工具调用和环境交互能力的AI系统，能够完成多步骤复杂任务	02-Agent测试
幻觉	Hallucination	模型生成看似合理但与事实不符或完全虚构的内容	05-大模型基础
越狱	Jailbreak	通过精心设计的Prompt绕过模型安全对齐机制，使其生成受限或有害内容	03-安全评测
偏见	Bias	模型在训练数据或算法中习得的系统性、不公平的倾向或刻板印象	02-AI伦理测试
公平性	Fairness	AI系统在不同群体（种族、性别、年龄等）间表现一致、不产生歧视性差异的属性	02-AI伦理测试
可解释性	Explainability	AI系统能够以人类可理解的方式说明其决策依据和推理过程的能力	06-评测体系概览
对齐	Alignment	确保AI系统的行为目标与人类价值观、意图和安全要求相一致的技术方向	02-AI伦理测试
涌现能力	Emergent Ability	模型参数规模超过一定阈值后突然显现的、在小模型中不存在的新能力	05-大模型基础
令牌	Token	LLM处理文本的基本单位，可以是词、子词或字符，影响上下文窗口和成本	05-大模型基础
上下文窗口	Context Window	模型单次推理能处理的Token数量上限，决定了可输入的最大信息量	05-大模型基础
温度	Temperature	控制模型输出随机性的超参数，值越高输出越多样（创造性），越低越确定（保守）	05-大模型基础
微调	Fine-tuning	在预训练模型基础上，使用特定领域数据进一步训练以适应特定任务的过程	05-大模型基础
RLHF	Reinforcement Learning from Human Feedback	基于人类反馈的强化学习方法，用于训练模型产生更符合人类偏好的输出	05-大模型基础
思维链	Chain of Thought (CoT)	引导模型展示逐步推理过程的Prompt技术，可显著提升复杂推理任务的表现	Prompt库
少样本学习	Few-shot Learning	在Prompt中提供少量示例，使模型无需额外训练即可完成特定任务	05-大模型基础
零样本学习	Zero-shot Learning	模型在没有任何示例的情况下直接完成新任务，体现其泛化能力	05-大模型基础
嵌入	Embedding	将文本、图像等非结构化数据映射为稠密向量表示，保留语义相似性	05-大模型基础
向量数据库	Vector Database	专门存储和检索高维向量数据的数据库系统，是RAG架构的核心组件	01-RAG系统测试
Transformer	Transformer	基于自注意力机制的深度学习架构，是现代大语言模型的基础结构	05-大模型基础
自注意力	Self-Attention	Transformer的核心机制，允许模型在处理序列时关注不同位置间的关联	05-大模型基础
多模态	Multimodal	能够同时处理和理解文本、图像、音频、视频等多种类型数据的AI模型	05-大模型基础
知识库	Knowledge Base	结构化/非结构化知识的集合，为RAG系统提供外部知识来源	01-RAG系统测试
蒸馏	Distillation	将大模型（教师）的知识迁移到小模型（学生）的技术，用于降低部署成本	05-大模型基础
训练数据	Training Data	用于模型预训练和微调的原始语料，其质量和多样性直接影响模型能力	05-大模型基础
测试数据	Test Data	独立于训练数据、用于评估模型泛化能力的保留数据集	06-评测体系概览
概念漂移	Concept Drift	模型部署后，现实世界的数据分布发生变化，导致原有模型性能下降	04-AI测试的挑战
数据泄露	Data Leakage	测试数据信息以某种方式混入训练过程，导致评测结果虚高	02-评测基准
鲁棒性	Robustness	系统在输入扰动、噪声、对抗样本等异常条件下保持正确行为的能力	04-AI测试的挑战

📌 学习建议 建议先阅读什么是AI测试和大模型基础两个章节，再查阅本词典可以更好地理解术语间的关联关系。

二、方法论类

2.1 测试方法论

术语	英文	简要定义	关联章节
AI驱动测试开发	AI-TDD (AI-driven Test-Driven Development)	利用AI自动从需求生成测试用例，先编写测试再生成实现代码，AI贯穿整个TDD循环	01-测试用例生成
AI辅助行为驱动开发	AI-BDD (AI-assisted Behavior-Driven Development)	用自然语言描述行为场景，AI自动生成对应的步骤定义和测试脚本	01-测试用例生成
AI加速验收测试	AI-ATDD (AI-accelerated Acceptance Test-Driven Development)	AI从验收条件自动生成测试用例，加速验收测试驱动的开发流程	01-测试用例生成
LLM作为评判者	LLM-as-Judge	使用大语言模型作为自动评估器，对另一个模型的输出进行质量评分和判断	01-评测维度
基于LLM的回归测试	LLM-based Regression Testing	利用LLM检测新旧模型版本在相同输入下输出的语义差异，发现能力退化	04-场景化评测
A/B测试	A/B Testing	同时运行两个版本的系统，通过在线指标对比评估新版本是否优于旧版本	03-模型选型评估
对抗测试	Adversarial Testing	通过构造恶意或边界输入，系统性地测试模型的安全边界和鲁棒性	03-安全评测
差分测试	Differential Testing	将同一输入发送给多个模型/版本，比较输出差异以发现异常行为	04-场景化评测

2.2 评估指标

术语	英文	简要定义	公式/说明
准确率	Accuracy	正确预测的样本数占总样本数的比例	(TP + TN) / (TP + TN + FP + FN)
精确率	Precision	预测为正例的样本中实际为正例的比例	TP / (TP + FP)
召回率	Recall	实际为正例的样本中被正确预测的比例	TP / (TP + FN)
F1分数	F1-Score	精确率和召回率的调和平均数，综合衡量分类性能	2 × (Precision × Recall) / (Precision + Recall)
BLEU	Bilingual Evaluation Understudy	基于n-gram精确匹配的机器翻译质量自动评估指标，值越高越好	加权n-gram精确率的几何平均 × 长度惩罚因子
ROUGE	Recall-Oriented Understudy for Gisting Evaluation	面向召回率的文本摘要评估指标，衡量生成文本与参考文本的重叠度	ROUGE-N/ROUGE-L，基于n-gram或最长公共子序列
METEOR	Metric for Evaluation of Translation with Explicit ORdering	考虑同义词、词形变化和词序的机器翻译评估指标	基于单字精确率和召回率的调和平均 + 词序惩罚
困惑度	Perplexity (PPL)	衡量语言模型对测试数据预测能力的指标，值越低表示模型越好	exp(交叉熵损失)，表示模型对下一个Token的"惊讶程度"
交叉熵损失	Cross-Entropy Loss	衡量模型预测概率分布与真实分布之间差异的损失函数	−∑ p(x) log q(x)，是语言模型训练的核心优化目标
语义相似度	Semantic Similarity	衡量两段文本在语义层面相似程度的指标，常用BERTScore或Sentence Embedding	基于Embedding向量的余弦相似度计算
BERTScore	BERTScore	基于BERT上下文Embedding的文本生成质量评估指标，不依赖精确n-gram匹配	生成文本和参考文本Token嵌入的余弦相似度
METEOR	Metric for Evaluation of Translation with Explicit ORdering	考虑同义词匹配和词序的机器翻译评估指标	加权F-mean + 词序碎片惩罚

2.3 安全测试指标

术语	英文	简要定义	计算方法
攻击成功率	Attack Success Rate (ASR)	对抗性攻击成功绕过安全防护、使模型产生有害输出的比例	成功攻击次数 / 总攻击尝试次数 × 100%
拦截率	Block Rate / Refusal Rate	模型正确拒绝回答不安全/有害请求的比例，衡量安全防护的召回率	正确拦截次数 / 应拦截请求总数 × 100%
漏放率	Miss Rate / Pass Rate	本应被拦截的有害请求被模型放行并产生回答的比例（安全漏报）	漏放次数 / 应拦截请求总数 × 100%
误拒率	False Refusal Rate (FRR)	模型错误地将安全/合法的请求判定为有害并拒答的比例（安全误报）	误拒次数 / 安全请求总数 × 100%
有害内容生成率	Harmful Content Generation Rate	模型在正常对话中自发产生有害/不安全内容的比例	有害输出次数 / 总输出次数 × 100%
安全评分	Safety Score	综合评估模型安全表现的多维加权评分，通常包含拦截率、ASR等多个子维度	加权综合多个安全子指标
过拒绝率	Over-Refusal Rate	模型因安全对齐过度而拒绝合理、无害请求的比例（安全性的副作用）	过度拒绝次数 / 安全合法请求总数 × 100%

⚖️ 安全指标的平衡 拦截率和误拒率是一对矛盾指标——过于严格的拦截策略会提升误拒率，影响用户体验。优秀的安全系统需要在两者之间找到平衡，通常以"高拦截率 + 低误拒率"为优化目标。

三、工具类

3.1 评测工具

工具名称	类型	简要说明	核心能力
lm-eval-harness	开源评测框架	EleutherAI推出的LLM统一评测框架，支持200+标准Benchmark	零样本/少样本评测、多任务批量评测、标准化结果输出
DeepEval	开源评测框架	面向LLM应用的单元测试风格评测框架，类似pytest的AI测试体验	断言式评测、14+内置指标、LLM-as-Judge、RAG评估
RAGAS	RAG评测工具	专为RAG系统设计的评测框架，评估检索和生成质量	忠实度、答案相关性、上下文召回率、上下文精确率
OpenCompass	开源评测平台	上海AI实验室推出的全维度LLM评测平台	多模态评测、主观评测、长文本评测、安全评测
Promptfoo	Prompt评测工具	用于Prompt质量对比和回归测试的命令行/Web工具	多模型Prompt对比、自动评分、回归检测
Trulens	应用评测工具	TruEra推出的LLM应用评测与可观测性框架	反馈函数、RAG三元组评估、应用可观测性
LangSmith	LLM应用平台	LangChain官方推出的LLM应用全生命周期管理平台	调试追踪、数据集管理、自动评测、回归测试、人工标注

3.2 安全测试工具

工具名称	类型	简要说明	核心能力
Garak	LLM漏洞扫描	NVIDIA开源的LLM安全漏洞自动扫描工具	多类型漏洞探测、标准化输出格式、可扩展插件架构
PyRIT	红队测试框架	Microsoft开源的AI红队自动化测试框架	攻击编排、多轮对话攻击、评分器、转换器
Giskard	AI质量与安全	开源AI模型质量与安全测试库，覆盖LLM和传统ML	偏见检测、幻觉检测、对抗鲁棒性测试、RAG评估
LLM Guard	安全防护中间件	LLM输入/输出安全过滤库	Prompt注入检测、敏感信息脱敏、有害内容过滤
Guardrails AI	输出护栏	为LLM添加可验证的输出约束和格式校验	结构化输出、事实校验、PII检测、合规检查

3.3 开发与测试框架

工具名称	类型	简要说明	核心能力
LangChain	LLM应用框架	最流行的LLM应用开发框架，提供链式调用和Agent抽象	Prompt模板、链式编排、Agent/Tool抽象、记忆管理
LlamaIndex	数据框架	面向LLM的数据连接框架，专注于RAG场景	多源数据接入、索引构建、高级检索策略、查询引擎
DSPy	Prompt编程框架	Stanford推出的声明式Prompt编程框架，将Prompt视为可优化程序	声明式模块、自动Prompt优化、编译器概念
CrewAI	多Agent框架	多Agent协作编排框架，支持角色定义和任务分配	角色定义、任务委派、多Agent协作、工作流编排
AutoGen	多Agent框架	Microsoft开源的多Agent对话框架	Agent对话模式、人工介入、代码执行Agent、群聊拓扑
VLLM	推理引擎	高性能LLM推理服务引擎，用于模型部署和服务	PagedAttention、连续批处理、高吞吐推理

🛠️ 工具选择建议 评测工具推荐从 DeepEval 或 lm-eval-harness 入手；安全测试推荐 Garak + PyRIT 组合；应用开发框架根据场景选择——通用编排选 LangChain，RAG场景选 LlamaIndex，多Agent场景选 CrewAI/AutoGen。

四、中英文对照索引

按英文字母序排列，方便快速查阅。

英文	中文	缩写
A/B Testing	A/B测试	—
Accuracy	准确率	—
Adversarial Testing	对抗测试	—
Agent	智能体	—
AI-TDD	AI驱动测试开发	—
Alignment	对齐	—
Attack Success Rate	攻击成功率	ASR
AutoGen	微软多Agent框架	—
Benchmark	基准	—
BERTScore	BERT语义评分	—
Bias	偏见	—
BLEU	双语评估替换指标	—
Block Rate	拦截率	—
Chain of Thought	思维链	CoT
Concept Drift	概念漂移	—
Context Window	上下文窗口	—
CrewAI	多Agent协作框架	—
Cross-Entropy Loss	交叉熵损失	—
Data Leakage	数据泄露	—
DeepEval	LLM单元测试评测框架	—
Differential Testing	差分测试	—
Distillation	蒸馏	—
DSPy	声明式Prompt编程框架	—
Embedding	嵌入	—
Emergent Ability	涌现能力	—
Evaluation	评测	—
Explainability	可解释性	—
F1-Score	F1分数	—
Fairness	公平性	—
False Refusal Rate	误拒率	FRR
Few-shot Learning	少样本学习	—
Fine-tuning	微调	—
Garak	NVIDIA LLM漏洞扫描	—
Giskard	AI质量与安全测试库	—
Guardrails AI	输出护栏框架	—
Hallucination	幻觉	—
Jailbreak	越狱	—
Knowledge Base	知识库	—
LangChain	LLM应用开发框架	—
LangSmith	LLM应用管理平台	—
LlamaIndex	LLM数据框架	—
LLM-as-Judge	LLM作为评判者	—
LLM Guard	LLM安全防护中间件	—
lm-eval-harness	LLM统一评测框架	—
METEOR	翻译质量评估指标	—
Miss Rate	漏放率	—
Multimodal	多模态	—
OpenCompass	全维度LLM评测平台	—
Over-Refusal Rate	过拒绝率	—
Perplexity	困惑度	PPL
Precision	精确率	—
Prompt Engineering	Prompt工程	—
Promptfoo	Prompt评测对比工具	—
PyRIT	微软AI红队测试框架	—
RAGAS	RAG评测框架	—
Recall	召回率	—
Red Teaming	红队测试	—
Reinforcement Learning from Human Feedback	基于人类反馈的强化学习	RLHF
Retrieval-Augmented Generation	检索增强生成	RAG
Robustness	鲁棒性	—
ROUGE	召回率导向的摘要评估	—
Safety Score	安全评分	—
Self-Attention	自注意力	—
Semantic Similarity	语义相似度	—
Temperature	温度	—
Test Data	测试数据	—
Token	令牌	—
Training Data	训练数据	—
Transformer	Transformer架构	—
Trulens	LLM应用评测框架	—
Vector Database	向量数据库	—
VLLM	高性能LLM推理引擎	—
Zero-shot Learning	零样本学习	—

← 返回章节概览