评测基准 - AI测试知识库

一、评测基准概览

1.1 什么是评测基准？

评测基准（Benchmark）是一套标准化的测试数据集与评估协议，用于客观衡量大语言模型（LLM）在特定能力维度上的表现。它通常包含一组精心设计的题目（如选择题、填空题、代码生成题），以及配套的评分规则和参考答案。通过让不同模型在同一基准上完成测试，可以获得可比较、可复现的评分，形成所谓的 Leaderboard（排行榜）。

评测基准在整个AI评测体系中扮演着三个关键角色：

标尺角色：为模型能力提供统一的量化度量，使不同机构、不同模型的比较成为可能。
反馈角色：帮助研发团队快速识别模型的强项和短板，指导后续训练和优化方向。
准入角色：作为模型选型、上线决策的重要参考依据——模型在关键基准上的表现直接影响是否被引入生产环境。

1.2 如何理解 Leaderboard 评分

Leaderboard（如 Hugging Face 的 Open LLM Leaderboard、LMSYS Chatbot Arena）是社区中广泛关注的评测汇总平台。解读 Leaderboard 时需关注以下几点：

综合排名 vs 单项评分：综合排名往往取多个基准的平均值，可能掩盖特定维度的优劣势。应根据实际业务需求重点关注相关维度的单项评分。
评测条件差异：不同基准的提示词格式（Prompt Template）、few-shot 示例数量、解码参数设置等都会显著影响评分，需确认对比模型的评测条件是否一致。
时间维度：Leaderboard 排名具有时效性。新模型出现、基准更新、评测方法改进都会导致排名变化。
Elo 分数机制（Chatbot Arena）：基于人类偏好的盲评对战，ElO 分数反映的是相对偏好而非绝对能力，更适合评估对齐度和用户体验。

⚠️ 警惕"刷榜"现象 Leaderboard 排名不应作为模型选择的唯一依据。部分模型可能针对特定基准进行了过拟合训练，导致基准分数虚高但实际业务场景表现不佳。

1.3 评测基准的局限性

尽管评测基准在模型评估中不可或缺，但也存在若干公认的局限性：

🔍 数据污染（Data Contamination）

指评测基准的题目（或高度相似的变体）出现在了模型的训练数据中。模型可能通过"记忆"而非"推理"来回答问题，导致基准分数无法反映真实泛化能力。研究表明，部分公开基准（如 GSM8K、MMLU）的题目已被广泛抓取并混入训练语料。

缓解措施：使用动态更新的基准（如 LiveBench）、构建闭源私有测试集、采用去污染检测工具（如 LMSYS 的 contamination detector）。

📐 过拟合风险（Overfitting）

当研发团队将基准表现作为优化目标时，可能通过调整训练数据、提示工程、或对模型进行针对性微调来"刷分"，但模型的真实通用能力并未提升。这与 Goodhart 定律吻合：一旦某个指标成为目标，它就不再是一个好的指标。

缓解措施：采用多基准交叉验证、引入未见过的私有评测集、结合人工评估进行校准。

📏 单一维度的局限

每个基准通常只测量有限的能力维度（如知识广度、数学推理），无法全面刻画模型的综合能力。此外，选择题格式天然存在猜测偏差（随机答对的概率），无法区分"真正理解"与"模式匹配"。

缓解措施：组合不同维度的基准形成评测矩阵，补充开放性生成任务评估，结合实际业务场景进行端到端评测。

二、综合知识类基准

综合知识类基准旨在评估模型的知识广度与深度，覆盖从自然科学到人文社科的广泛领域，是衡量模型"博学"程度的核心指标。

📚 MMLU 综合知识

全称：Massive Multitask Language Understanding（大规模多任务语言理解）

由 UC Berkeley、哥伦比亚大学等机构于 2020 年发布，是目前最广泛使用的大模型知识评测基准。覆盖 57 个学科，涉及 STEM（科学、技术、工程、数学）、人文社科、医学、法律、商业等多个领域，包含约 15,908 道四选一选择题。题目难度从初等教育到专业资格考试不等。

评测方法：通常采用 5-shot 设置（提供 5 个示例），以准确率（Accuracy）作为主要指标。各学科分数可进一步聚合为整体 MMLU 平均分。

当前水平：GPT-4 系列约 86.4%，Claude 3.5 Sonnet 约 88.7%，DeepSeek-V3 约 88.5%。人类专家水平约 89.8%。

题目数量：15,908学科数：57题型：四选一发布时间：2020

🇨🇳 C-Eval 中文综合

全称：Chinese Evaluation（中文基础模型评测）

由上海交通大学、清华大学等联合发布，是国内最权威的中文综合能力评测基准。覆盖 52 个学科，分为 STEM、社会科学、人文科学、其他四大类，包含 13,948 道选择题。题目来源包括中国高校考试题、公务员考试题、职业资格考试题等，对中文语境下的专业知识考察具有较高针对性。

评测方法：5-shot，以准确率为主要指标。支持验证集（1,346 题）和测试集（12,342 题）两个子集。

当前水平：GPT-4 约 68.7%，Qwen2.5-72B 约 85.3%，DeepSeek-V3 约 86.1%。中文模型在该基准上通常表现优于同等规模的英文模型。

题目数量：13,948学科数：52题型：四选一发布时间：2023

🧠 AGIEval 通用智能

全称：AGI Evaluation（通用人工智能评测）

由微软研究院、香港中文大学等联合发布，以人类标准化考试为蓝本构建。题目来源包括中国高考（Gaokao）、美国 SAT、GRE、公务员考试、司法考试、医师资格考试等 20 种考试，共计 8,062 道题。旨在以"考试"这种人类通用的智力评估方式来衡量模型的通用智能水平。

评测方法：zero-shot / few-shot，以准确率为主要指标。提供中英双语版本。

特色：题目难度明显高于一般基准，且对中国高考等有明确分数线标准，可直接对比模型与人类考生的表现差距。

题目数量：8,062考试种类：20题型：选择/填空发布时间：2023

📋 综合知识基准选型建议 在某银行AI应用场景（如智能客服、内部知识问答）中，建议优先关注 C-Eval 和 MMLU。C-Eval 直接评估中文专业知识掌握度，MMLU 提供国际横向对比的参考基线。AGIEval 可用于评估模型处理高难度考试级问题的能力（如合规审查场景）。

三、推理与数学类

推理与数学类基准评估模型的逻辑推理、数值计算和多步问题求解能力。这类能力对金融场景尤为关键，因为银行业务涉及大量精确计算和合规推理。

🧮 GSM8K 数学推理

全称：Grade School Math 8K（小学数学应用题 8K）

由 OpenAI 于 2021 年发布，包含 8,500 道小学数学应用题（7,473 训练 + 1,319 测试）。每道题包含一段自然语言描述的场景，需要多步算术推理才能求解，最终答案为一个整数。

评测方法：8-shot Chain-of-Thought（思维链），即提供 8 个带逐步推理过程的示例。以最终答案完全匹配（Exact Match）作为评分标准。

当前水平：GPT-4 约 92.0%，Claude 3.5 Sonnet 约 96.4%，o1 系列可达 98%+。人类平均约 85%。

题目数量：8,500难度：小学数学题型：开放数值答案发布时间：2021

📐 MATH 竞赛数学

全称：Mathematics Aptitude Test of Heuristics（启发式数学能力测试）

由 UC Berkeley 于 2021 年发布，包含 12,500 道高中数学竞赛级别的数学题，涵盖代数、几何、概率、数论、微积分预备等 7 个分支。每个子分支又分为 5 个难度等级（Level 1-5），Level 5 相当于 AMC 12、AIME 等竞赛水平。

评测方法：4-shot，以答案完全匹配为评分标准。需模型输出 LaTeX 格式的数学表达式作为最终答案。

当前水平：GPT-4 约 52.9%（Level 5 仅约 10%），Claude 3.5 Sonnet 约 71.1%，o1 系列可达 94.8%。显示普通 LLM 在复杂数学上仍有明显短板，但推理增强模型已有巨大突破。

题目数量：12,500难度：高中竞赛题型：LaTeX 表达式发布时间：2021

🔗 BBH 困难推理

全称：BIG-Bench Hard（超难推理任务集）

从 Google 的 BIG-Bench 项目中筛选出的 23 个最具挑战性的任务子集，覆盖逻辑推理、算法思维、语言理解、常识推理等维度。BBH 的特殊之处在于：当时（2022 年）所有模型在这些任务上的表现均未超过人类平均水平，因此被认为是"硬骨头"。

评测方法：3-shot CoT，以准确率为评分标准。包含布尔表达式求值、日期理解、几何图形识别、因果判断、多步算术等多样化任务。

当前水平：GPT-4 约 86.7%（CoT 设置），PaLM 540B 约 66.1%。CoT 提示对 BBH 的提升尤为显著（平均提升 15-25 个百分点）。

任务数：23类型：多样化题型：混合发布时间：2022

💡 银行业的数学推理需求 在利率计算、贷款分期、风险计量等场景中，模型的数值计算精度和多步推理能力直接影响业务准确性。建议在选型时重点关注 GSM8K 和 MATH 的表现，同时补充自建的银行业务数学题库进行验证（如利息复利计算、汇率换算、LPR 调整推导等）。

四、代码生成类

代码生成类基准评估模型根据自然语言描述生成正确代码的能力。虽然银行业的直接代码生成需求相对有限（更多是辅助测试脚本生成），但代码能力通常与模型的逻辑严谨性和结构化思维高度正相关，具有参考价值。

💻 HumanEval 函数生成

全称：HumanEval（人工评估代码生成）

由 OpenAI 于 2021 年在 Codex 论文中提出，包含 164 个手写 Python 编程问题。每个问题包含函数签名、文档字符串（docstring）描述、以及多个隐藏的单元测试。模型需要根据描述补齐函数体，使其通过所有测试用例。

评测指标：核心指标为 pass@k——对每个问题生成 k 个候选代码样本，只要其中至少一个通过所有测试，即计为正确。行业内常报告 pass@1（首次生成即正确率）。

pass@k = E_Problems[1 − C(n−c, k) / C(n, k)]

其中 n 为每个问题生成的样本总数，c 为通过的样本数，C 为组合数。该公式对采样方差进行了无偏估计。

当前水平：GPT-4 约 67.0%（pass@1），Claude 3.5 Sonnet 约 92.0%，DeepSeek-Coder-V2 约 91.6%。

题目数量：164语言：Python指标：pass@k发布时间：2021

🐍 MBPP Python编程

全称：Mostly Basic Python Programming（基本Python编程集）

由 Google 于 2021 年发布，包含 974 个入门级 Python 编程问题（374 训练 + 500 测试 + 100 验证），由众包人员编写。每个问题包含任务描述、参考解答和 3 个单元测试用例。

评测方法：3-shot，以 pass@1 为主要指标。与 HumanEval 相比，MBPP 的题目更偏向 Python 基础操作（如字符串处理、列表操作、字典遍历等），难度略低但覆盖面更广。

当前水平：GPT-4 约 80.1%，Claude 3.5 Sonnet 约 90.5%。

题目数量：974语言：Python难度：入门级发布时间：2021

🔧 SWE-bench 真实Issue修复

全称：Software Engineering Benchmark（软件工程基准）

由普林斯顿大学于 2023 年发布，是目前最具工程实战性的代码评测基准。从 12 个知名 Python 开源项目（如 Django、Flask、SymPy、Scikit-learn 等）的 GitHub Issues 中提取了 2,294 个真实的 Bug 修复任务。模型需要根据 Issue 描述定位代码库中的 Bug 位置，生成补丁（patch），并通过已有的单元测试验证。

评测方法：以 Resolved Rate（补丁通过所有测试且与人工修复逻辑一致）为指标。SWE-bench Lite 子集包含 300 个经过筛选的较易验证的任务。

当前水平：GPT-4 约 1.7%（SWE-bench Lite 约 41.3%），Devin 约 13.86%（完整集）。该基准仍极具挑战性，是衡量 Agent 型编码能力的金标准。

任务数量：2,294项目数：12指标：Resolved Rate发布时间：2023

五、中文与多语言基准

对于面向中国市场的银行业AI应用，中文能力是根本性要求。以下基准专门评估模型在中文和多语言环境下的表现。

🇨🇳 C-Eval 中文综合

（详见第二章）国内最权威的中文综合评测基准，覆盖 52 个学科，13,948 道题。

语言：中文地位：国内标杆

🇨🇳 CMMLU 中文多任务

全称：Comprehensive Multitask MMLU for Chinese（中文综合多任务语言理解）

由北京理工大学、微软等联合发布，可以视为 MMLU 的中文版本。覆盖 67 个学科（比 MMLU 多 10 个），包含中国特有的学科如中国历史、中国文学、中医药学等。题目总数约 11,528 道选择题。

评测方法：5-shot，准确率。强调题目来源的本土化——大量题目由中国高校教材和考试中提取，而非从英文 MMLU 翻译。

当前水平：GPT-4 约 71.0%，Qwen2.5-72B 约 87.2%，DeepSeek-V3 约 88.3%。

题目数量：11,528学科数：67特点：学科本土化发布时间：2023

📋 CLUE 系列中文理解

全称：Chinese Language Understanding Evaluation（中文语言理解评测基准）

CLUE 是由 Datawhale、CLUE 团队等发起的中文 NLP 评测社区，发布了多代中文评测基准：

CLUE（2020）：包含文本分类、句子对匹配、阅读理解等 9 个任务，被视为中文 NLP 的 GLUE。
FewCLUE（2021）：面向小样本学习的评测基准，强调在有限标注数据下的泛化能力。
SuperCLUE（2023）：针对大模型的综合性评测，包含基础能力（10 类）、中文特性（7 类）、安全与价值观（3 类）三大维度，共 3,000+ 道题。同时引入自动化评测 + 人工复核的双重机制。

特色：SuperCLUE 特别关注中文特有的语言现象（如成语、歇后语、对联等），以及对中文语境下价值观对齐的评估。

系列：CLUE/FewCLUE/SuperCLUE维度：多维度社区：中文NLP社区标杆

📋 中文基准选型优先级 对于某银行AI这样的中文金融AI应用，建议评测优先级为：C-Eval ≥ CMMLU > SuperCLUE。C-Eval 和 CMMLU 提供权威的学科覆盖面，SuperCLUE 则补充了中文语言特质和价值观对齐的考察。三个基准结合使用，可获得更立体的中文能力画像。

六、安全类基准

安全类基准评估模型的事实准确性、拒答能力和价值对齐度。在银行场景中，错误的事实输出和不当回应可能带来合规风险和声誉损失，因此安全评测尤为重要。

✅ TruthfulQA 事实性

全称：Truthful Question Answering（真实性问答）

由牛津大学、OpenAI 等于 2021 年发布，专门评估模型回答的事实真实性（Truthfulness）和信息性（Informativeness）。包含 817 道精心设计的问题，覆盖 38 个类别（如健康、法律、金融、阴谋论等），所有问题都是人类容易因错误认知或误解而答错的"陷阱题"。

评测方法：使用微调的 GPT-judge 对模型回答进行真实性评分，同时结合人工标注验证。核心指标有 MC1（单选题正确率）、MC2（多选题加权正确率）、BLEU 等。此外，TruthfulQA 还定义了"Truth × Info"的二维评估坐标系——有些模型的真实回答可能过于简短而缺乏信息量。

关键发现：更大的模型往往更不真实（inverse scaling）——因为它们在训练过程中学到了更多人类常见的错误认知。GPT-4 的 MC1 约 59%，远低于其在 MMLU 上的表现。

题目数量：817类别：38指标：MC1/MC2发布时间：2021

🚫 Do-Not-Answer 拒答能力

全称：Do-Not-Answer（不应回答的评估）

由香港科技大学、滑铁卢大学等于 2023 年发布，专门评估模型对不安全问题的拒绝回答能力。包含 939 道分为 5 个危害等级和 12 个危害类别（如非法行为、隐私侵犯、金融诈骗建议、仇恨言论、自我伤害等）的"不应回答"问题。

评测方法：使用 GPT-4 作为自动化评审（auto-evaluator），判断模型输出是否构成安全的拒绝回答。指标包括 Safe Response Rate（安全拒答率）和 Helpful Response Rate（有用回应率，即对安全问题的有用回答比例）。

银行场景关联：类别中直接包含"金融诈骗建议"（Financial Fraud）维度，对银行AI应用的安全防护具有直接参考意义。

题目数量：939危害等级：5类别：12发布时间：2023

🏦 银行场景的安全基准补充

除了上述通用安全基准，银行AI应用还应关注以下安全评测维度（详见本知识库的安全评测专题）：

数据泄露风险：模型是否会输出训练数据中包含的客户信息或内部文档内容。
合规拒答：对涉及理财建议、投资推荐、利率预测等受监管问题的恰当拒答。
价值观对齐：在金融场景下的伦理判断（如是否会给用户推荐超出承受能力的借贷产品）。
越狱攻击防护：通过提示注入等方式诱导模型输出违规内容的风险。

七、主流评测基准对比总表

下表汇总了前述各基准的核心属性，便于快速横向比较和选型参考：

基准	类别	题目规模	题型	核心指标	语言	难度	GPT-4 得分	发布年份
MMLU	综合知识	15,908	四选一	Accuracy	英文	⭐⭐⭐	86.4%	2020
C-Eval	综合知识	13,948	四选一	Accuracy	中文	⭐⭐⭐	68.7%	2023
CMMLU	综合知识	11,528	四选一	Accuracy	中文	⭐⭐⭐	71.0%	2023
AGIEval	通用智能	8,062	选择/填空	Accuracy	中/英	⭐⭐⭐⭐	41.7%	2023
GSM8K	数学推理	8,500	开放数值	Exact Match	英文	⭐⭐	92.0%	2021
MATH	竞赛数学	12,500	LaTeX 表达式	Exact Match	英文	⭐⭐⭐⭐⭐	52.9%	2021
BBH	困难推理	23 任务	混合	Accuracy	英文	⭐⭐⭐⭐	86.7%	2022
HumanEval	代码生成	164	补全代码	pass@1	Python	⭐⭐⭐	67.0%	2021
MBPP	代码生成	974	补全代码	pass@1	Python	⭐⭐	80.1%	2021
SWE-bench	软件工程	2,294	Issue→Patch	Resolved Rate	Python	⭐⭐⭐⭐⭐	1.7%	2023
TruthfulQA	安全/事实性	817	开放回答	MC1/MC2	英文	⭐⭐⭐	59.0%	2021
Do-Not-Answer	安全/拒答	939	开放回答	Safe Response	中/英	⭐⭐⭐	70.1%	2023
SuperCLUE	中文综合	3,000+	混合	综合评分	中文	⭐⭐⭐	76.4%	2023

⚠️ 分数时效性说明 表中 GPT-4 得分取自已公开的论文或技术报告数据，时间为各基准首次发布时的评估结果。当前主流模型（如 GPT-4o、Claude 3.5、DeepSeek-V3、Qwen2.5 等）的得分通常显著高于上述数值。评分仅作为相对难度的参考，不代表当前最优水平。

八、某银行AI评测基准选型建议

8.1 六类应用范式的基准映射

根据某银行AI的六类核心AI应用范式，我们梳理了各范式对模型能力的需求，并给出了对应的评测基准推荐。下表可作为系统化选型的参考框架：

应用范式	核心能力需求	推荐公开基准	建议自建数据	优先级
智能问答（客服/内部知识库）	中文知识广度、语义理解、事实准确性	C-Eval、CMMLU、TruthfulQA	银行业务知识题库、产品FAQ评测集	最高
文本分析（合同审查/舆情分析）	长文本理解、摘要、信息抽取、实体识别	BBH、SuperCLUE 长文本任务	金融文档理解评测集、监管文件解析题库	高
代码生成（测试脚本/报表SQL）	代码生成正确性、逻辑严谨性	HumanEval、MBPP	SQL生成评测集、测试脚本正确性题库	中
数据分析（风控报告/数据解读）	数值推理、统计理解、多步分析	GSM8K、MATH（基础级）	金融计算题库（利率、风险指标）、报表推理评测集	高
合规审查（制度校验/监管匹配）	逻辑推理、法规知识、拒答能力	AGIEval、Do-Not-Answer	监管法规合规评测集、制度条款匹配题库	最高
流程自动化（RPA/任务编排）	指令遵循、工具调用、多轮交互	BFCL（函数调用）、SWE-bench	业务流程模拟评测集、工具API调用正确性题库	中

8.2 公开基准 vs 自建数据的决策框架

在实际的银行AI评测工作中，一个无法回避的问题是：应该多大程度依赖公开基准，多大程度投入自建数据？ 以下决策框架帮助团队做出合理判断：

✅ 应优先使用公开基准的场景

模型选型的初期筛选：在候选模型较多（如 5-10 个）时，先通过公开基准快速筛选出 2-3 个候选者，再进入深度评测。
通用能力的横向对比：如知识广度（MMLU）、中文理解（C-Eval），这些维度公开基准已足够成熟和有区分度。
行业对标与汇报：需要向管理层或合作方展示"所选模型达到业界领先水平"时，公开基准提供了公认的参照系。
快速识别模型短板：如果某候选模型在 MATH 或 TruthfulQA 上得分异常低，可作为红线直接淘汰。

🏗️ 应投入自建数据的场景

业务知识准确性：公开基准无法涵盖银行的内部业务知识（如某银行的贷款产品条款、利率政策），必须自建领域知识评测集。
合规与安全评测：银行的合规要求有行业特殊性（如《商业银行法》、银保监会文件等），通用安全基准只能作为补充。
端到端场景评测：如"客户投诉处理"这种需要多轮对话、情绪识别、工单创建的复合场景，公开基准无法模拟。
防止数据污染：自建数据的闭源性天然避免了公开基准可能存在的训练数据污染问题，评估结果更可信。
持续回归评测：在模型上线后的每次更新中，自建评测集可作为回归测试套件，确保新版本不引入退化。

📋 推荐策略：分层评测体系 建议采用"三层金字塔"评测架构：
第1层（基础层）——公开基准快速筛选，淘汰明显不达标的模型。耗时：1-2 天/候选模型。
第2层（领域层）——自建银行业务评测集，深度评估知识准确性和场景适应性。耗时：3-5 天/候选模型。
第3层（场景层）——端到端业务场景联测 + 人工评估。仅对前两层均通过的 1-2 个最终候选模型执行。耗时：1-2 周。
这种分层策略在评估深度和资源投入之间取得平衡，适合银行场景的实际落地节奏。

8.3 基准选型的常见误区

❌ 唯分数论：只看综合排名，忽视单项能力与业务需求的对齐。一个在代码生成上表现顶尖的模型，可能在中文金融合规回答上表现糟糕。
❌ 忽视数据污染：直接引用 Leaderboard 排名而不验证模型是否在对应基准的训练数据上训练过。
❌ 基准越多越好：无目的地跑满所有基准既浪费计算资源，又可能产生冗余甚至矛盾的信息。应根据能力需求矩阵精准选择。
❌ 静态评估：只做一次评测就做出选择，忽视了模型版本的迭代变化和业务需求的演进。
❌ 忽略 prompt 敏感性：同一模型在不同 prompt 格式下的基准得分差异可达 5-10 个百分点，评测时需固定 prompt 模板并记录。

🛠️ 实战演练

以下三个实战任务覆盖基准运行、数据集构建和结果分析三个核心环节，帮助测试人员将评测基准知识转化为实际动手能力。建议按顺序完成，每个任务预计耗时 1-2 小时。

实战任务1：使用 lm-eval-harness 运行 MMLU 基准测试

场景：在本地环境中对开源模型运行标准化的 MMLU 评测

背景：lm-evaluation-harness 是 EleutherAI 开源的标准化评测框架，支持 200+ 基准测试。本任务以 MMLU（大规模多任务语言理解）为例，演示从安装到运行的全流程。

步骤：

安装 lm-eval-harness：

# 创建虚拟环境（推荐）
python -m venv lmeval-env
source lmeval-env/bin/activate  # Windows: lmeval-env\Scripts\activate

# 安装 lm-eval
pip install lm-eval[all]

# 验证安装
lm_eval --help

运行 MMLU 评测：以 HuggingFace 上的 Qwen2.5-0.5B 小模型为例进行快速验证

# 运行 MMLU（仅取前 3 个学科以节省时间）
lm_eval --model hf \
  --model_args pretrained=Qwen/Qwen2.5-0.5B \
  --tasks mmlu_anatomy,mmlu_astronomy,mmlu_econometrics \
  --device cuda:0 \
  --batch_size 8 \
  --output_path ./mmlu_results/

查看结果：在 ./mmlu_results/ 目录下找到 JSON 结果文件，重点关注 results 字段中的各学科 acc,none（准确率）和整体平均分。
进阶：将模型切换为其他 HuggingFace 模型（如 Qwen2.5-7B、LLaMA-3.2-3B），对比不同参数量模型在 MMLU 上的表现差异。

评估标准：成功运行并获取至少 3 个学科的评测分数，理解输出 JSON 结构

耗时：1.5 小时（含模型下载时间）

产出物：MMLU 评测结果 JSON 文件 + 简要评测记录

实战任务2：为银行场景构建简易评测数据集

场景：从 C-Eval 公开数据集中筛选金融相关题目，构建面向银行业务的定制评测集

背景：C-Eval 是一个覆盖 52 个学科的中文综合评测基准，其中包含会计学、经济学、金融学等与银行场景高度相关的学科。本任务教你如何从公开基准中提取并构建领域专属评测集，迈出从「通用基准」到「业务评测」的关键一步。

步骤：

获取 C-Eval 数据：从 HuggingFace 下载 C-Eval 数据集

from datasets import load_dataset

# 加载 C-Eval 验证集
dataset = load_dataset("ceval/ceval-exam", split="val")
print(f"总样本数: {len(dataset)}")
print(f"学科列表: {dataset.unique('subject')}")

筛选金融相关学科：选出会计学、金融学、经济学、税法等学科题目

# 定义金融相关学科
finance_subjects = [
    "accounting",      # 会计学
    "finance",         # 金融学
    "economics",       # 经济学
    "tax_law",         # 税法
    "business_admin"   # 工商管理
]

# 筛选题目
finance_dataset = dataset.filter(
    lambda x: x["subject"] in finance_subjects
)
print(f"金融相关题目数: {len(finance_dataset)}")

格式化导出：转换为统一评测格式并保存

import json

# 转换为统一格式
eval_data = []
for item in finance_dataset:
    eval_data.append({
        "id": item["id"],
        "subject": item["subject"],
        "question": item["question"],
        "choices": [item["A"], item["B"], item["C"], item["D"]],
        "answer": ord(item["answer"]) - ord("A")  # 转为 0-index
    })

# 保存
with open("banking_eval_set.json", "w", encoding="utf-8") as f:
    json.dump(eval_data, f, ensure_ascii=False, indent=2)

print(f"银行场景评测集已保存，共 {len(eval_data)} 条")

验证题目质量：随机抽查 10 道题目，人工确认题目相关性和答案正确性

评估标准：成功筛选 ≥100 条金融相关题目，导出的 JSON 格式规范、可直接用于评测

耗时：1 小时

产出物：banking_eval_set.json 数据集文件 + 数据处理脚本

实战任务3：分析评测分数——识别模型强弱项

场景：基于一组模型的评测得分，分析各模型的强弱项并给出选型建议

背景：以下是 5 个主流模型在 MMLU、GSM8K、HumanEval 三个基准上的得分（数据为 2025 年公开基准的近似参考值）。请据以分析，回答后续问题。

模型	MMLU (5-shot)	GSM8K (5-shot)	HumanEval (0-shot)
Qwen2.5-72B-Instruct	86.1	91.1	86.0
DeepSeek-V3	88.5	92.0	70.7
LLaMA-3.3-70B-Instruct	86.0	89.7	69.5
Yi-Lightning	80.8	82.3	67.1
GLM-4-9B-Chat	72.4	68.9	56.7

请分析以下问题：

知识广度分析：哪两个模型在 MMLU（综合知识）上表现最强？这些模型适合承担什么类型的银行业务场景？
数学推理分析：GSM8K 得分最高的模型与最低的模型之间差距是多少？对于银行场景中的利率计算、财务报表分析等任务，至少需要多高的 GSM8K 分数？
代码能力分析：为什么 DeepSeek-V3 和 LLaMA-3.3 在 HumanEval 上得分明显低于 MMLU 和 GSM8K？这说明什么？银行场景中哪些任务需要代码能力？
选型建议：如果为以下两个银行子场景选型，你会推荐哪个模型？请说明理由：
- 场景A：智能客服（重知识广度 + 中文理解 + 安全性）
- 场景B：自动化测试脚本生成（重代码生成能力 + 性价比）
维度组合：仅凭 MMLU、GSM8K、HumanEval 三个基准能充分评估一个面向银行场景的模型吗？如果不能，还应补充哪些评测维度？

评估标准：分析逻辑清晰、选型建议有理有据、能识别基准的局限性并提出补充维度

耗时：1 小时

产出物：模型对比分析报告（含强弱项分析表 + 场景选型建议 + 补充评测建议）

💡 实战建议 三个任务由浅入深，形成完整的「基准运行 → 数据集构建 → 结果分析」能力链。建议先完成任务1获取动手经验，再通过任务2理解业务定制化的思路，最后通过任务3培养数据分析与选型决策能力。完成后可将三个任务的产出物整理为一套标准化评测工作流文档，便于团队复用。

📋 案例研究：用公开基准评估模型在银行场景的适用性

背景：某银行计划为智能客服系统选型大模型，候选模型为 DeepSeek-V3 和 Qwen2.5-72B。测试团队需在两周内给出选型建议。

评估方案：

选取 MMLU（知识广度）、GSM8K（数学推理）、C-Eval（中文理解）、TruthfulQA（安全性）四个基准
附加银行自建 20 题场景评测（含制度问答、业务推理等）

评估过程：

在 lm-eval-harness 上运行 4 个基准
记录各模型得分、推理延迟、API 成本
对比公开排行榜数据与实际测试结果

结果分析：

基准	DeepSeek-V3	Qwen2.5-72B
MMLU	88.5	86.1
GSM8K	92.0	91.1
C-Eval	78.3	86.0
TruthfulQA	65.2	68.7
银行场景自测（20题）	85.0	80.0

模型强弱项分析：

DeepSeek-V3：知识广度和数学推理表现突出，适合复杂业务逻辑处理和数据分析场景；但中文理解（C-Eval）和安全性（TruthfulQA）相对薄弱，在中文客服对话中可能出现理解偏差或幻觉。
Qwen2.5-72B：中文理解和安全性表现优秀，更适合面向终端客户的中文对话场景；知识广度和数学推理略逊于 DeepSeek-V3，但在可接受范围内。

选型建议：

质量优先方案：选用 DeepSeek-V3，其综合知识能力更强，在银行场景自测中得分更高（85.0 vs 80.0）。适合对回答准确率要求极高的核心业务场景。
成本优先方案：选用 Qwen2.5-72B，其中文理解能力更强，TruthfulQA 安全性更高，且通常推理成本更低。适合高并发的客服场景，在保证基本质量的同时控制成本。
混合方案（推荐）：简单 FAQ 类问题由 Qwen2.5-72B 处理，复杂业务推理问题路由至 DeepSeek-V3，兼顾质量与成本。

启示：

公开基准不能完全代表银行场景表现——DeepSeek-V3 在公开基准上全面领先，但 C-Eval 得分反而不如 Qwen2.5-72B，实际中文场景需重点考量。
必须附加场景化评测才能做出准确判断——银行自建的 20 题场景测试揭示了两个模型在真实业务环境中的差异。
评测过程本身是对团队能力的锻炼——从基准选型、环境搭建到结果分析，团队建立了完整的评测方法论，可复用于后续模型选型。

📅 最后更新：2025年5月 | 📝 维护：AI测试学习知识体系团队

参考资料：各基准原始论文、Hugging Face Open LLM Leaderboard、LMSYS Chatbot Arena、CLUE社区

一、评测基准概览

1.1 什么是评测基准？

1.2 如何理解 Leaderboard 评分

1.3 评测基准的局限性

🔍 数据污染（Data Contamination）

📐 过拟合风险（Overfitting）

📏 单一维度的局限

二、综合知识类基准

📚 MMLU 综合知识

🇨🇳 C-Eval 中文综合

🧠 AGIEval 通用智能

三、推理与数学类

🧮 GSM8K 数学推理

📐 MATH 竞赛数学

🔗 BBH 困难推理

四、代码生成类

💻 HumanEval 函数生成

🐍 MBPP Python编程

🔧 SWE-bench 真实Issue修复

五、中文与多语言基准

🇨🇳 C-Eval 中文综合

🇨🇳 CMMLU 中文多任务

📋 CLUE 系列 中文理解

六、安全类基准

✅ TruthfulQA 事实性

🚫 Do-Not-Answer 拒答能力

🏦 银行场景的安全基准补充

七、主流评测基准对比总表

八、某银行AI评测基准选型建议

8.1 六类应用范式的基准映射

8.2 公开基准 vs 自建数据的决策框架

✅ 应优先使用公开基准的场景

🏗️ 应投入自建数据的场景

8.3 基准选型的常见误区

🛠️ 实战演练

实战任务1：使用 lm-eval-harness 运行 MMLU 基准测试

实战任务2：为银行场景构建简易评测数据集

实战任务3：分析评测分数——识别模型强弱项

📋 案例研究：用公开基准评估模型在银行场景的适用性

📋 CLUE 系列中文理解