💡 使用说明
本词典是AI测试知识库的快速术语索引,收录了基础概念、评测方法论、安全测试、工具框架等领域的核心术语。每个术语包含中文名称、英文原文、简要定义和关联章节链接。建议配合各章节正文阅读以获得深入理解。

一、基础概念类

涵盖AI测试领域的核心概念,是理解整个知识体系的基石。

术语英文简要定义关联章节
AI测试AI Testing对AI系统进行质量验证与评估的活动,包括测试AI系统和AI辅助测试两大方向01-什么是AI测试
大语言模型Large Language Model (LLM)基于Transformer架构、使用海量文本数据训练的大规模语言模型,具有涌现能力05-大模型基础
评测Evaluation通过预定义的指标和方法,系统化衡量AI模型/系统在特定任务上的表现06-评测体系概览
基准Benchmark标准化的测试任务和数据集,用于横向比较不同模型的能力水平02-评测基准
红队测试Red Teaming模拟攻击者视角,通过对抗性测试发现AI系统的安全漏洞和脆弱点03-安全评测
Prompt工程Prompt Engineering设计和优化输入提示以引导大模型产生期望输出的技术实践Prompt库
检索增强生成Retrieval-Augmented Generation (RAG)结合外部知识检索与LLM生成的混合架构,提升回答的事实准确性和时效性01-RAG系统测试
智能体Agent具有自主规划、工具调用和环境交互能力的AI系统,能够完成多步骤复杂任务02-Agent测试
幻觉Hallucination模型生成看似合理但与事实不符或完全虚构的内容05-大模型基础
越狱Jailbreak通过精心设计的Prompt绕过模型安全对齐机制,使其生成受限或有害内容03-安全评测
偏见Bias模型在训练数据或算法中习得的系统性、不公平的倾向或刻板印象02-AI伦理测试
公平性FairnessAI系统在不同群体(种族、性别、年龄等)间表现一致、不产生歧视性差异的属性02-AI伦理测试
可解释性ExplainabilityAI系统能够以人类可理解的方式说明其决策依据和推理过程的能力06-评测体系概览
对齐Alignment确保AI系统的行为目标与人类价值观、意图和安全要求相一致的技术方向02-AI伦理测试
涌现能力Emergent Ability模型参数规模超过一定阈值后突然显现的、在小模型中不存在的新能力05-大模型基础
令牌TokenLLM处理文本的基本单位,可以是词、子词或字符,影响上下文窗口和成本05-大模型基础
上下文窗口Context Window模型单次推理能处理的Token数量上限,决定了可输入的最大信息量05-大模型基础
温度Temperature控制模型输出随机性的超参数,值越高输出越多样(创造性),越低越确定(保守)05-大模型基础
微调Fine-tuning在预训练模型基础上,使用特定领域数据进一步训练以适应特定任务的过程05-大模型基础
RLHFReinforcement Learning from Human Feedback基于人类反馈的强化学习方法,用于训练模型产生更符合人类偏好的输出05-大模型基础
思维链Chain of Thought (CoT)引导模型展示逐步推理过程的Prompt技术,可显著提升复杂推理任务的表现Prompt库
少样本学习Few-shot Learning在Prompt中提供少量示例,使模型无需额外训练即可完成特定任务05-大模型基础
零样本学习Zero-shot Learning模型在没有任何示例的情况下直接完成新任务,体现其泛化能力05-大模型基础
嵌入Embedding将文本、图像等非结构化数据映射为稠密向量表示,保留语义相似性05-大模型基础
向量数据库Vector Database专门存储和检索高维向量数据的数据库系统,是RAG架构的核心组件01-RAG系统测试
TransformerTransformer基于自注意力机制的深度学习架构,是现代大语言模型的基础结构05-大模型基础
自注意力Self-AttentionTransformer的核心机制,允许模型在处理序列时关注不同位置间的关联05-大模型基础
多模态Multimodal能够同时处理和理解文本、图像、音频、视频等多种类型数据的AI模型05-大模型基础
知识库Knowledge Base结构化/非结构化知识的集合,为RAG系统提供外部知识来源01-RAG系统测试
蒸馏Distillation将大模型(教师)的知识迁移到小模型(学生)的技术,用于降低部署成本05-大模型基础
训练数据Training Data用于模型预训练和微调的原始语料,其质量和多样性直接影响模型能力05-大模型基础
测试数据Test Data独立于训练数据、用于评估模型泛化能力的保留数据集06-评测体系概览
概念漂移Concept Drift模型部署后,现实世界的数据分布发生变化,导致原有模型性能下降04-AI测试的挑战
数据泄露Data Leakage测试数据信息以某种方式混入训练过程,导致评测结果虚高02-评测基准
鲁棒性Robustness系统在输入扰动、噪声、对抗样本等异常条件下保持正确行为的能力04-AI测试的挑战
📌 学习建议 建议先阅读 什么是AI测试大模型基础 两个章节,再查阅本词典可以更好地理解术语间的关联关系。

二、方法论类

2.1 测试方法论

术语英文简要定义关联章节
AI驱动测试开发AI-TDD (AI-driven Test-Driven Development)利用AI自动从需求生成测试用例,先编写测试再生成实现代码,AI贯穿整个TDD循环01-测试用例生成
AI辅助行为驱动开发AI-BDD (AI-assisted Behavior-Driven Development)用自然语言描述行为场景,AI自动生成对应的步骤定义和测试脚本01-测试用例生成
AI加速验收测试AI-ATDD (AI-accelerated Acceptance Test-Driven Development)AI从验收条件自动生成测试用例,加速验收测试驱动的开发流程01-测试用例生成
LLM作为评判者LLM-as-Judge使用大语言模型作为自动评估器,对另一个模型的输出进行质量评分和判断01-评测维度
基于LLM的回归测试LLM-based Regression Testing利用LLM检测新旧模型版本在相同输入下输出的语义差异,发现能力退化04-场景化评测
A/B测试A/B Testing同时运行两个版本的系统,通过在线指标对比评估新版本是否优于旧版本03-模型选型评估
对抗测试Adversarial Testing通过构造恶意或边界输入,系统性地测试模型的安全边界和鲁棒性03-安全评测
差分测试Differential Testing将同一输入发送给多个模型/版本,比较输出差异以发现异常行为04-场景化评测

2.2 评估指标

术语英文简要定义公式/说明
准确率Accuracy正确预测的样本数占总样本数的比例(TP + TN) / (TP + TN + FP + FN)
精确率Precision预测为正例的样本中实际为正例的比例TP / (TP + FP)
召回率Recall实际为正例的样本中被正确预测的比例TP / (TP + FN)
F1分数F1-Score精确率和召回率的调和平均数,综合衡量分类性能2 × (Precision × Recall) / (Precision + Recall)
BLEUBilingual Evaluation Understudy基于n-gram精确匹配的机器翻译质量自动评估指标,值越高越好加权n-gram精确率的几何平均 × 长度惩罚因子
ROUGERecall-Oriented Understudy for Gisting Evaluation面向召回率的文本摘要评估指标,衡量生成文本与参考文本的重叠度ROUGE-N/ROUGE-L,基于n-gram或最长公共子序列
METEORMetric for Evaluation of Translation with Explicit ORdering考虑同义词、词形变化和词序的机器翻译评估指标基于单字精确率和召回率的调和平均 + 词序惩罚
困惑度Perplexity (PPL)衡量语言模型对测试数据预测能力的指标,值越低表示模型越好exp(交叉熵损失),表示模型对下一个Token的"惊讶程度"
交叉熵损失Cross-Entropy Loss衡量模型预测概率分布与真实分布之间差异的损失函数−∑ p(x) log q(x),是语言模型训练的核心优化目标
语义相似度Semantic Similarity衡量两段文本在语义层面相似程度的指标,常用BERTScore或Sentence Embedding基于Embedding向量的余弦相似度计算
BERTScoreBERTScore基于BERT上下文Embedding的文本生成质量评估指标,不依赖精确n-gram匹配生成文本和参考文本Token嵌入的余弦相似度
METEORMetric for Evaluation of Translation with Explicit ORdering考虑同义词匹配和词序的机器翻译评估指标加权F-mean + 词序碎片惩罚

2.3 安全测试指标

术语英文简要定义计算方法
攻击成功率Attack Success Rate (ASR)对抗性攻击成功绕过安全防护、使模型产生有害输出的比例成功攻击次数 / 总攻击尝试次数 × 100%
拦截率Block Rate / Refusal Rate模型正确拒绝回答不安全/有害请求的比例,衡量安全防护的召回率正确拦截次数 / 应拦截请求总数 × 100%
漏放率Miss Rate / Pass Rate本应被拦截的有害请求被模型放行并产生回答的比例(安全漏报)漏放次数 / 应拦截请求总数 × 100%
误拒率False Refusal Rate (FRR)模型错误地将安全/合法的请求判定为有害并拒答的比例(安全误报)误拒次数 / 安全请求总数 × 100%
有害内容生成率Harmful Content Generation Rate模型在正常对话中自发产生有害/不安全内容的比例有害输出次数 / 总输出次数 × 100%
安全评分Safety Score综合评估模型安全表现的多维加权评分,通常包含拦截率、ASR等多个子维度加权综合多个安全子指标
过拒绝率Over-Refusal Rate模型因安全对齐过度而拒绝合理、无害请求的比例(安全性的副作用)过度拒绝次数 / 安全合法请求总数 × 100%
⚖️ 安全指标的平衡 拦截率和误拒率是一对矛盾指标——过于严格的拦截策略会提升误拒率,影响用户体验。优秀的安全系统需要在两者之间找到平衡,通常以"高拦截率 + 低误拒率"为优化目标。

三、工具类

3.1 评测工具

工具名称类型简要说明核心能力
lm-eval-harness开源评测框架EleutherAI推出的LLM统一评测框架,支持200+标准Benchmark零样本/少样本评测、多任务批量评测、标准化结果输出
DeepEval开源评测框架面向LLM应用的单元测试风格评测框架,类似pytest的AI测试体验断言式评测、14+内置指标、LLM-as-Judge、RAG评估
RAGASRAG评测工具专为RAG系统设计的评测框架,评估检索和生成质量忠实度、答案相关性、上下文召回率、上下文精确率
OpenCompass开源评测平台上海AI实验室推出的全维度LLM评测平台多模态评测、主观评测、长文本评测、安全评测
PromptfooPrompt评测工具用于Prompt质量对比和回归测试的命令行/Web工具多模型Prompt对比、自动评分、回归检测
Trulens应用评测工具TruEra推出的LLM应用评测与可观测性框架反馈函数、RAG三元组评估、应用可观测性
LangSmithLLM应用平台LangChain官方推出的LLM应用全生命周期管理平台调试追踪、数据集管理、自动评测、回归测试、人工标注

3.2 安全测试工具

工具名称类型简要说明核心能力
GarakLLM漏洞扫描NVIDIA开源的LLM安全漏洞自动扫描工具多类型漏洞探测、标准化输出格式、可扩展插件架构
PyRIT红队测试框架Microsoft开源的AI红队自动化测试框架攻击编排、多轮对话攻击、评分器、转换器
GiskardAI质量与安全开源AI模型质量与安全测试库,覆盖LLM和传统ML偏见检测、幻觉检测、对抗鲁棒性测试、RAG评估
LLM Guard安全防护中间件LLM输入/输出安全过滤库Prompt注入检测、敏感信息脱敏、有害内容过滤
Guardrails AI输出护栏为LLM添加可验证的输出约束和格式校验结构化输出、事实校验、PII检测、合规检查

3.3 开发与测试框架

工具名称类型简要说明核心能力
LangChainLLM应用框架最流行的LLM应用开发框架,提供链式调用和Agent抽象Prompt模板、链式编排、Agent/Tool抽象、记忆管理
LlamaIndex数据框架面向LLM的数据连接框架,专注于RAG场景多源数据接入、索引构建、高级检索策略、查询引擎
DSPyPrompt编程框架Stanford推出的声明式Prompt编程框架,将Prompt视为可优化程序声明式模块、自动Prompt优化、编译器概念
CrewAI多Agent框架多Agent协作编排框架,支持角色定义和任务分配角色定义、任务委派、多Agent协作、工作流编排
AutoGen多Agent框架Microsoft开源的多Agent对话框架Agent对话模式、人工介入、代码执行Agent、群聊拓扑
VLLM推理引擎高性能LLM推理服务引擎,用于模型部署和服务PagedAttention、连续批处理、高吞吐推理
🛠️ 工具选择建议 评测工具推荐从 DeepEval 或 lm-eval-harness 入手;安全测试推荐 Garak + PyRIT 组合;应用开发框架根据场景选择——通用编排选 LangChain,RAG场景选 LlamaIndex,多Agent场景选 CrewAI/AutoGen。

四、中英文对照索引

按英文字母序排列,方便快速查阅。

英文中文缩写
A/B TestingA/B测试
Accuracy准确率
Adversarial Testing对抗测试
Agent智能体
AI-TDDAI驱动测试开发
Alignment对齐
Attack Success Rate攻击成功率ASR
AutoGen微软多Agent框架
Benchmark基准
BERTScoreBERT语义评分
Bias偏见
BLEU双语评估替换指标
Block Rate拦截率
Chain of Thought思维链CoT
Concept Drift概念漂移
Context Window上下文窗口
CrewAI多Agent协作框架
Cross-Entropy Loss交叉熵损失
Data Leakage数据泄露
DeepEvalLLM单元测试评测框架
Differential Testing差分测试
Distillation蒸馏
DSPy声明式Prompt编程框架
Embedding嵌入
Emergent Ability涌现能力
Evaluation评测
Explainability可解释性
F1-ScoreF1分数
Fairness公平性
False Refusal Rate误拒率FRR
Few-shot Learning少样本学习
Fine-tuning微调
GarakNVIDIA LLM漏洞扫描
GiskardAI质量与安全测试库
Guardrails AI输出护栏框架
Hallucination幻觉
Jailbreak越狱
Knowledge Base知识库
LangChainLLM应用开发框架
LangSmithLLM应用管理平台
LlamaIndexLLM数据框架
LLM-as-JudgeLLM作为评判者
LLM GuardLLM安全防护中间件
lm-eval-harnessLLM统一评测框架
METEOR翻译质量评估指标
Miss Rate漏放率
Multimodal多模态
OpenCompass全维度LLM评测平台
Over-Refusal Rate过拒绝率
Perplexity困惑度PPL
Precision精确率
Prompt EngineeringPrompt工程
PromptfooPrompt评测对比工具
PyRIT微软AI红队测试框架
RAGASRAG评测框架
Recall召回率
Red Teaming红队测试
Reinforcement Learning from Human Feedback基于人类反馈的强化学习RLHF
Retrieval-Augmented Generation检索增强生成RAG
Robustness鲁棒性
ROUGE召回率导向的摘要评估
Safety Score安全评分
Self-Attention自注意力
Semantic Similarity语义相似度
Temperature温度
Test Data测试数据
Token令牌
Training Data训练数据
TransformerTransformer架构
TrulensLLM应用评测框架
Vector Database向量数据库
VLLM高性能LLM推理引擎
Zero-shot Learning零样本学习