一、什么是场景化评测

1.1 从通用评测到场景化评测的演进

通用大模型评测(如MMLU、C-Eval等基准)采用标准化题目和统一评分体系,适合横向比较不同模型的通用能力。然而,随着大模型在垂直行业(特别是金融领域)的深度落地,通用评测的局限性日益凸显:

场景化评测正是为解决这些问题而生的方法论。它以终为始,以实际业务场景为锚点,构建贴近真实使用的评测方案。

💡 核心原则:以终为始,以业务效果为评判标准 场景化评测的核心理念是——模型好不好,不是看它答对了多少道通用题,而是看它在实际业务场景中是否"好用、管用、敢用"。评测设计的出发点永远是"这个模型要在什么场景下解决什么问题",而非"这个模型本身有多强"。

1.2 通用评测与场景化评测对比

对比维度通用评测场景化评测
评测数据 标准化公开数据集(如MMLU、C-Eval),覆盖百科知识、数学推理、代码等泛化领域 基于真实业务场景构造的定制化数据集,包含历史工单、业务文档、监管政策等
评测指标 准确率、Pass@k、BLEU、ROUGE等通用学术指标 业务导向指标:答案可追溯率、SQL生成准确率、缺陷检出率、预警漏报率等
评判标准 客观题自动判分,或基于参考答案的相似度计算 人工评测+LLM-as-Judge+业务规则三重验证,关注输出能否直接用于业务生产
评测规模 万级到十万级题目,覆盖面广 数百到数千条精选场景用例,力求每个用例都有明确的业务意义
更新频率 数据集相对固定,更新周期以年为单位 随业务变化、政策调整、模型迭代持续更新,保持评测数据的时效性
适用场景 模型选型、版本对比、学术研究 上线准入、版本回归、持续监控、业务效果评估
📖 实践建议 通用评测和场景化评测并非互斥关系。在实际工作中建议采用"通用评测初筛 → 场景化评测深验"的两级评测策略:先用通用基准快速过滤能力不达标的模型,再对候选模型进行深度的场景化评测,兼顾效率与准确性。

二、场景化评测设计方法论

场景化评测不是随意收集几个问题让模型回答,而是一套系统化的工程方法。以下为五步设计法:

步骤一:需求分析

明确评测目标,回答三个核心问题:

步骤二:场景定义

将业务需求转化为具体的评测场景,需要做到:

步骤三:数据构建

场景定义完成后,需要为每个场景构建评测数据:

⚠️ 数据质量红线 评测数据的质量直接决定评测结果的可信度。严禁使用未经人工审核的AI生成数据作为评测标准——否则会陷入"用AI评价AI"的循环验证陷阱。建议至少保持30%的人工精标数据作为Golden Set。

步骤四:指标设计

针对每个场景设计与之匹配的评测指标。指标设计需遵循SMART原则:

步骤五:基线确定

在正式评测前需要确定基线(Baseline),为评测结果提供参照系:

三、对标某银行AI建设工程六类应用范式的评测方案

某银行AI建设工程规划了六类AI应用范式,每类应用的用户需求、技术实现和业务风险各不相同,必须量体裁衣设计评测方案。

3.1 六类应用范式评测策略总览

应用范式核心能力核心评测指标评测重点风险等级
🟢 小通(智能问答) 知识检索与自然语言回答 答案准确率、知识覆盖度、来源可追溯、拒答合理性 回答的准确性、完整性、可追溯性
🔵 小鉴(智能问数) 自然语言转SQL/数据分析 SQL生成准确率、数据可视化正确性、查询响应时间 SQL正确性与安全性、数据准确性
🟣 小耘(智能文案) 文档/报告自动生成 格式遵循、内容完整性、合规性、风格一致性 格式规范、内容合规、风格可控
🔴 小盾(智能审查) 合同/制度审查与风险识别 缺陷检出率、误报率、审查覆盖率 不漏检(高召回)、不误报(高精度) 极高
🟠 小绘(多模态生成) 图像/图表/海报生成 图像质量、文图一致性、风格可控性 生成质量的主观一致性
🔷 小哨(舆情监测) 舆情采集与智能预警 预警准确率、漏报率、实时性 预警的准确性和时效性 极高

3.2 小通(智能问答)评测方案

小通是面向行内员工和客户的智能问答助手,基于RAG架构,需要精准、可靠地回答银行业务相关问题。

评测维度指标定义评测方法达标标准
答案准确率 回答内容与标准答案一致(含事实、数字、政策条款)的占比 人工评测 + LLM-as-Judge双评,不一致时人工仲裁 ≥ 90%
知识覆盖度 知识库中已覆盖的业务问题占总问题量的比例 对100个高频业务问题进行评测,统计直接命中知识库的比例 ≥ 85%
来源可追溯 回答中引用来源的比例,以及引用来源与实际内容一致的比例 逐条检查回答的引用标注,验证引用段落是否真正支撑回答 引用率 ≥ 80%,准确率 ≥ 95%
拒答合理性 在知识库无覆盖时,模型是否给出合理的拒答而非臆造答案 构造20个超出知识库范围的问题,统计模型虚构回答(幻觉)的比例 幻觉率 ≤ 5%
🏦 某银行AI特别关注 银行业务对信息准确性要求极高,小通的评测需要重点关注政策时效性——回答引用的监管政策是否为最新版本,废止政策是否仍然被错误引用。

3.3 小鉴(智能问数)评测方案

小鉴支持用户以自然语言查询数据,后台自动将自然语言转换为SQL并返回查询结果或可视化图表。

评测维度指标定义评测方法达标标准
SQL生成准确率 生成的SQL语法正确、语义与用户意图一致且执行结果正确的比例 用50条典型NL2SQL用例评测,对比预期SQL和预期执行结果 执行正确率 ≥ 85%
数据可视化正确性 生成的图表类型、数据映射、坐标轴标注等是否正确 人工检查图表与查询结果的一致性,包括图表类型是否合理 ≥ 90%
查询响应时间 从用户提问到返回结果的端到端耗时 JMeter压测工具批量请求,统计P50/P95/P99延迟 P95 ≤ 5秒
SQL注入防护 对恶意提问的抵御能力,不生成可能破坏数据库的SQL 构造10条SQL注入类提示,检查生成的SQL是否含有危险操作 零容忍(100%拦截)

3.4 小耘(智能文案)评测方案

小耘辅助生成各类行内文档,包括会议纪要、工作报告、制度修订稿、合规审查报告等。评测核心在于格式规范性、内容合规性和风格一致性。

评测维度指标定义评测方法达标标准
格式遵循度 生成文档是否严格遵循行内公文模板的格式要求(标题层级、字体字号、页边距、落款等) 用自动化脚本检查+人工抽检,定义格式检查清单逐项核对 ≥ 95%
内容完整性 是否覆盖了输入材料中的所有关键信息,无重要遗漏 人工比对输入材料与生成文档,标注遗漏项 关键信息覆盖率 ≥ 90%
合规性 生成内容是否符合监管规定和行内制度要求,无违规表述 建立合规关键词库+LLM-as-Judge双重扫描,检测敏感表述和违规用语 违规检出率 ≥ 98%,零严重违规
风格一致性 不同批次生成的文档在语气、措辞、行文风格上是否保持一致 用同一Prompt多次生成并比较,评估风格漂移程度;也可用文本相似度辅助 风格波动在可接受范围内

3.5 小盾(智能审查)评测方案

小盾是最为敏感的AI应用之一,负责合同审查、制度审查、风险识别等关键任务。评测标准极为严格——"宁可误报,不可漏报"

评测维度指标定义评测方法达标标准
缺陷检出率(召回率) 实际存在的缺陷中被模型正确检出的比例 用人工标注的审查数据集(含已知缺陷的文档),统计模型检出情况 ≥ 95%(关键缺陷 ≥ 99%)
误报率 模型标记为缺陷但实际并非缺陷的比例 统计模型标记的所有缺陷中,人工复核后确认为误报的比例 ≤ 15%(允许适当高召回代价)
审查覆盖率 模型审查覆盖了哪些类型的缺陷(如条款缺失、金额错误、期限不合理、合规违规等) 建立缺陷类型分类体系,统计模型对各类缺陷的检出能力 覆盖所有预定义缺陷类型
人工复核效率 引入小盾后,人工审查相同文档所需时间的缩短比例 A/B测试:对比纯人工审查和AI辅助审查的效率差异 效率提升 ≥ 50%
🚨 极高风险场景 小盾的评测必须在离线环境中进行,评测数据的敏感信息必须脱敏处理。审查结果仅作为辅助参考,最终决策必须由持证法务/合规人员确认,禁止以AI审查结果作为最终依据

3.6 小绘(多模态生成)评测方案

小绘负责图像、图表、海报等多模态内容的生成,评测面临"主观性强、标准难统一"的挑战。

评测维度指标定义评测方法达标标准
图像质量 生成图像的分辨率、清晰度、无畸形/扭曲的综合质量评分 5名评测员按1-5分评分,取平均分;辅以BRISQUE/NIQE无参考图像质量评估 平均分 ≥ 3.5
文图一致性 生成图像内容与文字描述的匹配程度 评测员将描述拆解为原子要素,逐要素核对图像是否满足 要素满足率 ≥ 80%
风格可控性 模型是否按照指定的风格要求生成图像(如"扁平化商务风格"、"水墨中国风") 同一描述使用不同风格参数生成,评测员判断风格一致性 风格正确率 ≥ 85%
品牌合规 生成内容中是否出现其他品牌Logo、侵权元素或不符合某银行VI规范的视觉元素 人工逐图审查品牌元素,同时用图像识别模型辅助筛查 违规率 = 0

3.7 小哨(舆情监测)评测方案

小哨负责实时监测与某银行相关的舆情信息并及时预警,评测的核心在于"不遗漏重要舆情、不发出无效告警"。

评测维度指标定义评测方法达标标准
预警准确率 所有发出的预警中,真正需要关注的舆情占比 对一周内所有预警进行人工回溯验证,统计有效预警比例 ≥ 80%
漏报率 真实发生的重大舆情中未被系统预警的比例 对比人工监测结果或外部舆情平台数据,交叉验证漏报情况 ≤ 5%(重大舆情 ≤ 1%)
实时性 从舆情发生到系统发出预警的时间间隔 时间戳对比,统计P50/P95延迟 P95 ≤ 30分钟
情感分析准确率 对舆情信息的情感倾向(正面/中性/负面)判断的准确率 人工标注200条舆情样本作为测试集,对比模型判断结果 ≥ 85%
实体识别准确率 正确识别舆情中涉及的机构、人员、产品、事件等关键实体的比例 人工标注实体,对比模型抽取结果,按实体级别计算准确率 ≥ 90%
⏱️ 实时性要求 舆情监测有极强的时效性要求。评测需要在不同时段(工作时间/非工作时间/节假日)分别测试,确保7×24小时的服务质量。此外,需模拟舆情爆发式增长场景,验证系统在高并发下的稳定性。

四、评测数据集构建指南

4.1 场景化数据收集方法

高质量的场景化评测数据来源于以下渠道:

4.2 数据标注质量控制

标注质量直接决定评测数据的可信度。建议建立如下质控流程:

4.3 训练/验证/测试集划分

数据集占比用途注意事项
训练集 约60% 用于模型微调、Prompt优化(如进行SFT) 仅需包含问题和参考答案,无需详细的评测标注
验证集 约20% 用于调参、选择最佳模型版本、设定阈值 不得与训练集有重叠;用于迭代优化过程中的快速评估
测试集 约20% 用于最终评测、上线前准入判定 严格隔离——仅在上线评测时使用,不参与任何训练和调参过程

4.4 数据持续更新机制

场景化评测数据不能"一劳永逸",需要建立持续更新机制:

五、人工评测与自动化评测结合

场景化评测中,完全依赖人工评测成本过高、周期过长,完全依赖自动化评测又难以覆盖主观判断维度。因此需要构建"自动化为主、人工为辅、交叉验证"的混合评测体系。

5.1 LLM-as-Judge方法

LLM-as-Judge是当前业界主流的大模型评测自动化方案:使用一个能力较强的"裁判模型"对被测模型的输出进行打分和评价。

🔧 裁判模型选择建议 LLM-as-Judge的可靠性取决于裁判模型的能力。建议选择能力明显强于被测模型的LLM作为裁判(如使用GPT-4o或DeepSeek-V3评判领域小模型),并定期用人工标注结果校准裁判模型的判断偏差。

5.2 人工抽检策略

人工评测虽然成本高,但在以下场景不可或缺:

5.3 我处CSV+JMeter模式适配

已建立的CSV数据驱动+JMeter批量执行评测模式可以平滑适配场景化评测需求:

组件在场景化评测中的角色适配说明
CSV数据文件 存储评测用例(场景描述、输入Prompt、预期输出、评判标准、难度标签) 扩展CSV列结构,增加场景类别、应用范式标签、预期行为描述等字段
JMeter测试计划 批量调用模型API,收集原始输出并写入结果文件 增加响应时间记录、Token消耗统计、错误重试逻辑
结果CSV 存储模型原始输出及元数据(耗时、Token数、请求时间戳) 可与预期输出并列存储,便于后续自动对比
评测脚本(Python) 对结果CSV进行自动评分(规则匹配、LLM-as-Judge调用、指标统计) 新增开发:按场景维度的分项评分、可视化报告生成
人工评测Excel模板 对自动化评分进行人工抽检和校准 在现有模板基础上增加人工评分列和偏差标记列

六、三阶段实施路径的评测配套

某银行AI建设工程的AI应用推进遵循三阶段实施路径,各阶段对评测的需求深度和广度不同,需要量力而行、渐进深化。

阶段一:辅助提效阶段(小通 / 小耘)

目标:AI作为辅助工具嵌入日常办公,允许人工兜底,评测目标为"能用"。

📋 快速启动清单 ① 收集Top 50高频问题;② 整理标准答案;③ 逐条评测并记录;④ 统计准确率并输出报告。整体周期控制在1周内。

阶段二:场景深探阶段(小鉴 / 小盾)

目标:AI深度介入核心业务场景(数据分析、合规审查),评测目标为"好用"。

阶段三:体系融合阶段

目标:AI与核心业务系统深度融合,评测目标为"敢用"。

三阶段评测对比总览

维度辅助提效阶段场景深探阶段体系融合阶段
评测深度 基本可用性 多维度深度评测 全链路业务评测
数据规模 50-100条 200-500条 500+条 + 生产采样
自动化程度 人工为主 自动化+人工抽检 自动化持续评测
评测周期 1周 2-4周 持续运行
涉及范式 小通、小耘 小鉴、小盾 全部六类范式
关键产出 快速评测报告 详细报告+缺陷清单 Dashboard+预警机制
🔗 与某银行AI建设工程的衔接 场景化评测方案是某银行AI建设工程质量保障体系的核心组成部分。评测结果直接服务于各阶段的"是否上线"决策,评测数据的积累也为后续模型迭代和Prompt优化提供方向指引。建议在每个阶段的里程碑评审中纳入评测报告作为关键准入材料。

🛠️ 实战演练

以下为五个典型实战任务,覆盖某银行AI六类应用范式,可按需选做或顺序推进。每个任务均给出了完整的操作步骤、评估标准和预计耗时,便于团队快速上手。

实战任务1:设计小通(智能问答)评测方案

场景:银行内部制度问答系统(基于RAG架构)

步骤:

  1. 收集10份行内制度文档作为知识库(覆盖信贷、风控、合规、人事等高频领域)
  2. 设计20个测试问题(10个有标准答案的直查问题、5个模糊查询/多文档综合问题、5个知识库无覆盖的边界问题)
  3. 运行评测,逐条记录回答内容、引用来源和人工评分
  4. 统计准确率、拒答率、幻觉率,标注Bad Case并回溯根因

评估标准:答案准确率 > 85%,幻觉率 < 5%,边界问题拒答合理且不编造信息

产出物:评测记录表(含问题/回答/评分/根因)+ 评测小结报告

耗时:半天

实战任务2:设计小鉴(智能问数)NL2SQL评测方案

场景:银行业务数据自然语言查询(如"查询上月各分行对公存款余额TOP10")

步骤:

  1. 选定一个业务数据集(如对公存款表、贷款台账表),准备表结构说明文档
  2. 设计15条NL2SQL用例,覆盖:简单单表查询(5条)、多表JOIN查询(4条)、聚合/分组查询(3条)、含日期/条件筛选的复杂查询(3条)
  3. 编写预期SQL和预期执行结果作为标准答案
  4. 运行评测,对比生成SQL的语法正确性、语义等价性和执行结果
  5. 额外构造3条SQL注入类恶意输入,验证防护能力

评估标准:SQL执行正确率 ≥ 85%,SQL注入100%拦截,P95响应时间 ≤ 5秒

产出物:NL2SQL用例集(CSV格式)+ SQL对比报告 + 安全测试记录

耗时:1天

实战任务3:设计小耘(智能文案)质量评估方案

场景:辅助生成会议纪要、工作报告、制度修订稿

步骤:

  1. 准备3类文案模板(会议纪要、工作报告、制度文档),明确格式规范要求
  2. 每类模板设计3个测试Prompt(共9个),输入真实或脱敏后的业务材料
  3. 运行评测,收集模型生成的文案
  4. 从格式遵循度、内容完整性、合规性、风格一致性四个维度逐条评分
  5. 对同一Prompt重复生成3次,评估风格漂移程度

评估标准:格式遵循度 ≥ 95%,关键信息覆盖率 ≥ 90%,合规违规检出率 ≥ 98%,风格波动在可接受范围

产出物:文案评测维度评分表 + 风格漂移对比分析 + 合规扫描结果

耗时:1天

实战任务4:设计小盾(智能审查)缺陷检出率测试

场景:合同/制度文档的缺陷识别与风险提示

步骤:

  1. 收集3-5份真实合同或制度文档(脱敏处理),标注已知缺陷清单(至少每份文档埋入5-8个缺陷,涵盖条款缺失、金额/日期矛盾、合规违规、逻辑冲突等类型)
  2. 将文档输入小盾,收集模型检出的所有缺陷项
  3. 逐项比对:模型检出的缺陷 vs 人工标注的已知缺陷,计算检出率(召回)和误报率
  4. 对漏检和误报案例进行根因分析,输出改进建议
  5. 评估引入小盾后人工审查效率的提升幅度(A/B对比)

评估标准:缺陷检出率(召回)≥ 95%(关键缺陷 ≥ 99%),误报率 ≤ 15%,人工效率提升 ≥ 50%

产出物:缺陷检出-误报对照表 + 根因分析报告 + 效率对比数据

耗时:1.5天

实战任务5:设计小绘/小哨(多模态生成+舆情监测)评测方案

场景A - 小绘:海报/图表/宣传素材生成;场景B - 小哨:某银行相关舆情实时监测与预警

小绘步骤:

  1. 设计5个不同风格要求的图像生成Prompt(商务办公、水墨中国风、数据图表等)
  2. 每个Prompt生成3张图像,由3名评测员独立评分(1-5分,维度:质量/文图一致性/风格匹配)
  3. 逐图检查品牌合规性(无其他Logo、无侵权元素、符合VI规范)

小哨步骤:

  1. 准备50条历史舆情样本(含正面/中性/负面,其中10条为重大负面),人工标注情感倾向和预警等级
  2. 运行评测,统计预警准确率、漏报率和情感分析准确率
  3. 测量端到端延迟(舆情发生→系统预警),验证P95 ≤ 30分钟

评估标准:小绘图像质量均分 ≥ 3.5,文图满足率 ≥ 80%,品牌违规率 = 0;小哨预警准确率 ≥ 80%,重大舆情漏报率 ≤ 1%,情感分析准确率 ≥ 85%

产出物:多模态评测评分汇总表 + 舆情监测评测报告 + 延迟统计

耗时:1.5天(两个场景可并行)

💡 实战演练使用建议 按照某银行AI三阶段实施路径,建议:阶段一优先完成任务1(小通)和任务3(小耘),快速验证基本可用性;阶段二推进任务2(小鉴)和任务4(小盾),深入验证核心能力;阶段三并行完成全部任务并建立持续评测机制。各任务产出的评测数据和报告可作为后续版本回归评测的基线。

📋 某银行AI建设工程验收对照表

以下对照表梳理了各应用范式在T+2(场景深探阶段)T+5(体系融合阶段)的关键验收项,供AI测试团队在里程碑评审时参考使用。

应用范式测试内容T+2 阶段验收项T+5 阶段验收项
🟢 小通
(智能问答)
答案准确性 准确率 ≥ 85%,Top-50高频问题全量通过 准确率 ≥ 90%,覆盖200+场景用例,生产环境采样月均准确率 ≥ 88%
知识覆盖与时效性 知识覆盖度 ≥ 80%,核心制度文档100%入库 知识覆盖度 ≥ 85%,建立季度知识库更新机制,政策时效性自动校验
拒答与幻觉控制 幻觉率 ≤ 8%,边界问题有明确拒答提示 幻觉率 ≤ 5%,建立幻觉自动检测+人工抽检常态化机制
来源可追溯 引用率 ≥ 70%,引用准确率 ≥ 90% 引用率 ≥ 80%,引用准确率 ≥ 95%,支持一键跳转源文档
🔵 小鉴
(智能问数)
NL2SQL准确性 SQL执行正确率 ≥ 80%,覆盖核心业务表单表查询 SQL执行正确率 ≥ 85%,覆盖复杂多表JOIN、聚合查询、嵌套子查询
安全性 SQL注入100%拦截,危险操作(DROP/DELETE无WHERE)零容忍 完善SQL安全审计日志,接入数据库防火墙联动
性能与可视化 P95响应 ≤ 8秒,图表类型正确率 ≥ 85% P95响应 ≤ 5秒,图表正确率 ≥ 90%,支持多图表联动和自定义看板
🟣 小耘
(智能文案)
格式规范性 格式遵循度 ≥ 90%,三类核心文档模板覆盖 格式遵循度 ≥ 95%,全部公文模板均覆盖,支持一键导出标准格式
内容质量 关键信息覆盖率 ≥ 85%,无明显歧义和事实错误 关键信息覆盖率 ≥ 90%,风格一致性经多轮验证,建立内容质量评分卡
合规扫描 违规检出率 ≥ 95%,无监管红线违规 违规检出率 ≥ 98%,合规关键词库季度更新,接入最新监管政策
🔴 小盾
(智能审查)
缺陷检出率 召回率 ≥ 90%,覆盖合同审查核心缺陷类型 召回率 ≥ 95%(关键缺陷 ≥ 99%),覆盖全量预定义缺陷类型体系
误报控制 误报率 ≤ 20%,允许在召回优先策略下的适度误报 误报率 ≤ 15%,建立误报反馈闭环(人工复核结果回流优化模型)
业务效果 人工效率提升 ≥ 30%,形成初步人机协作SOP 人工效率提升 ≥ 50%,建立"AI初筛+人工复核"标准化流程并纳入制度
🟠 小绘
(多模态生成)
图像质量与一致性 图像质量均分 ≥ 3.0,文图要素满足率 ≥ 70% 图像质量均分 ≥ 3.5,文图要素满足率 ≥ 80%,风格可控性 ≥ 85%
品牌合规 无第三方Logo侵权,基本符合VI规范 品牌违规率 = 0,建立VI合规自动检查工具,生成素材入库前全量扫描
🔷 小哨
(舆情监测)
预警准确性 预警准确率 ≥ 75%,重大舆情漏报率 ≤ 3% 预警准确率 ≥ 80%,重大舆情漏报率 ≤ 1%,7×24小时持续运行无中断
实时性 P95延迟 ≤ 1小时,工作时间覆盖 P95延迟 ≤ 30分钟,全时段覆盖(含节假日),高并发场景(舆情爆发)不降级
智能化程度 情感分析准确率 ≥ 80%,实体识别准确率 ≥ 85% 情感分析准确率 ≥ 85%,实体识别准确率 ≥ 90%,支持舆情趋势预测和关联分析
📊 共性要求
(全部范式)
评测体系建设 各范式完成首次场景化评测,输出评测报告作为T+2里程碑准入材料 建立自动化持续评测Pipeline,评测Dashboard上线,模型退化自动预警
评测数据积累 各范式积累 ≥ 50条评测用例,其中 ≥ 30%为人工精标数据 各范式积累 ≥ 200条评测用例,建立Bad Case库和回归评测集,数据季度更新
⚠️ 验收判定规则 T+2阶段:各范式核心指标均达标方可进入T+5阶段推进。若某项指标未达标,需在1个月内完成整改并复评。
T+5阶段:全部指标达标方可申请正式上线。涉及资金、合规、安全的高风险范式(小盾、小哨、小鉴)需额外通过一次由业务部门+风险管理部门联合组织的上线评审。