一、什么是场景化评测
1.1 从通用评测到场景化评测的演进
通用大模型评测(如MMLU、C-Eval等基准)采用标准化题目和统一评分体系,适合横向比较不同模型的通用能力。然而,随着大模型在垂直行业(特别是金融领域)的深度落地,通用评测的局限性日益凸显:
- 评测数据脱离业务:通用基准的知识领域覆盖面广但深度不足,无法反映模型在具体业务场景中的真实表现
- 指标与业务价值脱节:准确率、F1值等通用指标无法直接衡量模型对业务效率的提升和对风险的防控效果
- 无法适应多应用范式:同一底座模型在不同应用范式(问答、问数、文案、审查等)中的评测需求完全不同
场景化评测正是为解决这些问题而生的方法论。它以终为始,以实际业务场景为锚点,构建贴近真实使用的评测方案。
1.2 通用评测与场景化评测对比
| 对比维度 | 通用评测 | 场景化评测 |
|---|---|---|
| 评测数据 | 标准化公开数据集(如MMLU、C-Eval),覆盖百科知识、数学推理、代码等泛化领域 | 基于真实业务场景构造的定制化数据集,包含历史工单、业务文档、监管政策等 |
| 评测指标 | 准确率、Pass@k、BLEU、ROUGE等通用学术指标 | 业务导向指标:答案可追溯率、SQL生成准确率、缺陷检出率、预警漏报率等 |
| 评判标准 | 客观题自动判分,或基于参考答案的相似度计算 | 人工评测+LLM-as-Judge+业务规则三重验证,关注输出能否直接用于业务生产 |
| 评测规模 | 万级到十万级题目,覆盖面广 | 数百到数千条精选场景用例,力求每个用例都有明确的业务意义 |
| 更新频率 | 数据集相对固定,更新周期以年为单位 | 随业务变化、政策调整、模型迭代持续更新,保持评测数据的时效性 |
| 适用场景 | 模型选型、版本对比、学术研究 | 上线准入、版本回归、持续监控、业务效果评估 |
二、场景化评测设计方法论
场景化评测不是随意收集几个问题让模型回答,而是一套系统化的工程方法。以下为五步设计法:
步骤一:需求分析
明确评测目标,回答三个核心问题:
- 评什么场景?是智能问答、数据分析、文案生成还是安全审查?每个应用范式的评测需求完全不同
- 评到什么程度?是辅助提效(容忍一定错误)、场景深探(高准确率要求)还是体系融合(零容错)?取决于实施阶段
- 评判标准是什么?从业务侧明确"好"的定义——例如"生成的SQL可直接执行且结果正确"vs"生成的SQL经人工修改后可执行"
步骤二:场景定义
将业务需求转化为具体的评测场景,需要做到:
- 场景分级:按难度将场景分为L1(高频简单)、L2(中频中等)、L3(低频复杂/边界情况),确保评测覆盖不同难度层次
- 场景标准化:每个场景包含明确的输入描述、预期行为、判定标准和难度标签
- 场景覆盖度检查:对照业务需求矩阵,确保关键业务流程、异常路径、安全边界均有覆盖
步骤三:数据构建
场景定义完成后,需要为每个场景构建评测数据:
- 历史数据挖掘:从业务系统沉淀的工单、对话记录、审查报告中提取真实case
- 专家构造:由业务专家针对特定场景手工设计评测用例(特别是边界情况和对抗样本)
- AI辅助生成:利用大模型基于场景模板批量生成评测数据,再经人工审核确认质量
- 数据标注:每条评测数据需标注预期输出、评判标准和难度等级
步骤四:指标设计
针对每个场景设计与之匹配的评测指标。指标设计需遵循SMART原则:
- Specific(具体):指标有明确的定义和计算方式,如"SQL语法正确且执行结果与预期一致的比例"
- Measurable(可量化):每个指标都有可自动或人工计算的数值,避免模糊的定性描述
- Actionable(可行动):指标结果能直接指导改进方向,如"知识覆盖度低→需扩展知识库"
- Relevant(相关):指标与业务效果直接关联,不追求"好看但无用"的指标
- Time-bound(有时限):明确评测周期和达标时间节点
步骤五:基线确定
在正式评测前需要确定基线(Baseline),为评测结果提供参照系:
- 人工基线:由业务专家在相同场景下的表现作为对标(例如人工审查的缺陷检出率作为小盾的参照)
- 历史基线:上一个版本或上一代模型在相同评测集上的表现
- 竞品基线:同类产品或模型在相同场景下的表现(如有条件获取)
- 业务容忍线:业务方可接受的最低表现标准,低于此线则不可上线
三、对标某银行AI建设工程六类应用范式的评测方案
某银行AI建设工程规划了六类AI应用范式,每类应用的用户需求、技术实现和业务风险各不相同,必须量体裁衣设计评测方案。
3.1 六类应用范式评测策略总览
| 应用范式 | 核心能力 | 核心评测指标 | 评测重点 | 风险等级 |
|---|---|---|---|---|
| 🟢 小通(智能问答) | 知识检索与自然语言回答 | 答案准确率、知识覆盖度、来源可追溯、拒答合理性 | 回答的准确性、完整性、可追溯性 | 中 |
| 🔵 小鉴(智能问数) | 自然语言转SQL/数据分析 | SQL生成准确率、数据可视化正确性、查询响应时间 | SQL正确性与安全性、数据准确性 | 高 |
| 🟣 小耘(智能文案) | 文档/报告自动生成 | 格式遵循、内容完整性、合规性、风格一致性 | 格式规范、内容合规、风格可控 | 高 |
| 🔴 小盾(智能审查) | 合同/制度审查与风险识别 | 缺陷检出率、误报率、审查覆盖率 | 不漏检(高召回)、不误报(高精度) | 极高 |
| 🟠 小绘(多模态生成) | 图像/图表/海报生成 | 图像质量、文图一致性、风格可控性 | 生成质量的主观一致性 | 中 |
| 🔷 小哨(舆情监测) | 舆情采集与智能预警 | 预警准确率、漏报率、实时性 | 预警的准确性和时效性 | 极高 |
3.2 小通(智能问答)评测方案
小通是面向行内员工和客户的智能问答助手,基于RAG架构,需要精准、可靠地回答银行业务相关问题。
| 评测维度 | 指标定义 | 评测方法 | 达标标准 |
|---|---|---|---|
| 答案准确率 | 回答内容与标准答案一致(含事实、数字、政策条款)的占比 | 人工评测 + LLM-as-Judge双评,不一致时人工仲裁 | ≥ 90% |
| 知识覆盖度 | 知识库中已覆盖的业务问题占总问题量的比例 | 对100个高频业务问题进行评测,统计直接命中知识库的比例 | ≥ 85% |
| 来源可追溯 | 回答中引用来源的比例,以及引用来源与实际内容一致的比例 | 逐条检查回答的引用标注,验证引用段落是否真正支撑回答 | 引用率 ≥ 80%,准确率 ≥ 95% |
| 拒答合理性 | 在知识库无覆盖时,模型是否给出合理的拒答而非臆造答案 | 构造20个超出知识库范围的问题,统计模型虚构回答(幻觉)的比例 | 幻觉率 ≤ 5% |
3.3 小鉴(智能问数)评测方案
小鉴支持用户以自然语言查询数据,后台自动将自然语言转换为SQL并返回查询结果或可视化图表。
| 评测维度 | 指标定义 | 评测方法 | 达标标准 |
|---|---|---|---|
| SQL生成准确率 | 生成的SQL语法正确、语义与用户意图一致且执行结果正确的比例 | 用50条典型NL2SQL用例评测,对比预期SQL和预期执行结果 | 执行正确率 ≥ 85% |
| 数据可视化正确性 | 生成的图表类型、数据映射、坐标轴标注等是否正确 | 人工检查图表与查询结果的一致性,包括图表类型是否合理 | ≥ 90% |
| 查询响应时间 | 从用户提问到返回结果的端到端耗时 | JMeter压测工具批量请求,统计P50/P95/P99延迟 | P95 ≤ 5秒 |
| SQL注入防护 | 对恶意提问的抵御能力,不生成可能破坏数据库的SQL | 构造10条SQL注入类提示,检查生成的SQL是否含有危险操作 | 零容忍(100%拦截) |
3.4 小耘(智能文案)评测方案
小耘辅助生成各类行内文档,包括会议纪要、工作报告、制度修订稿、合规审查报告等。评测核心在于格式规范性、内容合规性和风格一致性。
| 评测维度 | 指标定义 | 评测方法 | 达标标准 |
|---|---|---|---|
| 格式遵循度 | 生成文档是否严格遵循行内公文模板的格式要求(标题层级、字体字号、页边距、落款等) | 用自动化脚本检查+人工抽检,定义格式检查清单逐项核对 | ≥ 95% |
| 内容完整性 | 是否覆盖了输入材料中的所有关键信息,无重要遗漏 | 人工比对输入材料与生成文档,标注遗漏项 | 关键信息覆盖率 ≥ 90% |
| 合规性 | 生成内容是否符合监管规定和行内制度要求,无违规表述 | 建立合规关键词库+LLM-as-Judge双重扫描,检测敏感表述和违规用语 | 违规检出率 ≥ 98%,零严重违规 |
| 风格一致性 | 不同批次生成的文档在语气、措辞、行文风格上是否保持一致 | 用同一Prompt多次生成并比较,评估风格漂移程度;也可用文本相似度辅助 | 风格波动在可接受范围内 |
3.5 小盾(智能审查)评测方案
小盾是最为敏感的AI应用之一,负责合同审查、制度审查、风险识别等关键任务。评测标准极为严格——"宁可误报,不可漏报"。
| 评测维度 | 指标定义 | 评测方法 | 达标标准 |
|---|---|---|---|
| 缺陷检出率(召回率) | 实际存在的缺陷中被模型正确检出的比例 | 用人工标注的审查数据集(含已知缺陷的文档),统计模型检出情况 | ≥ 95%(关键缺陷 ≥ 99%) |
| 误报率 | 模型标记为缺陷但实际并非缺陷的比例 | 统计模型标记的所有缺陷中,人工复核后确认为误报的比例 | ≤ 15%(允许适当高召回代价) |
| 审查覆盖率 | 模型审查覆盖了哪些类型的缺陷(如条款缺失、金额错误、期限不合理、合规违规等) | 建立缺陷类型分类体系,统计模型对各类缺陷的检出能力 | 覆盖所有预定义缺陷类型 |
| 人工复核效率 | 引入小盾后,人工审查相同文档所需时间的缩短比例 | A/B测试:对比纯人工审查和AI辅助审查的效率差异 | 效率提升 ≥ 50% |
3.6 小绘(多模态生成)评测方案
小绘负责图像、图表、海报等多模态内容的生成,评测面临"主观性强、标准难统一"的挑战。
| 评测维度 | 指标定义 | 评测方法 | 达标标准 |
|---|---|---|---|
| 图像质量 | 生成图像的分辨率、清晰度、无畸形/扭曲的综合质量评分 | 5名评测员按1-5分评分,取平均分;辅以BRISQUE/NIQE无参考图像质量评估 | 平均分 ≥ 3.5 |
| 文图一致性 | 生成图像内容与文字描述的匹配程度 | 评测员将描述拆解为原子要素,逐要素核对图像是否满足 | 要素满足率 ≥ 80% |
| 风格可控性 | 模型是否按照指定的风格要求生成图像(如"扁平化商务风格"、"水墨中国风") | 同一描述使用不同风格参数生成,评测员判断风格一致性 | 风格正确率 ≥ 85% |
| 品牌合规 | 生成内容中是否出现其他品牌Logo、侵权元素或不符合某银行VI规范的视觉元素 | 人工逐图审查品牌元素,同时用图像识别模型辅助筛查 | 违规率 = 0 |
3.7 小哨(舆情监测)评测方案
小哨负责实时监测与某银行相关的舆情信息并及时预警,评测的核心在于"不遗漏重要舆情、不发出无效告警"。
| 评测维度 | 指标定义 | 评测方法 | 达标标准 |
|---|---|---|---|
| 预警准确率 | 所有发出的预警中,真正需要关注的舆情占比 | 对一周内所有预警进行人工回溯验证,统计有效预警比例 | ≥ 80% |
| 漏报率 | 真实发生的重大舆情中未被系统预警的比例 | 对比人工监测结果或外部舆情平台数据,交叉验证漏报情况 | ≤ 5%(重大舆情 ≤ 1%) |
| 实时性 | 从舆情发生到系统发出预警的时间间隔 | 时间戳对比,统计P50/P95延迟 | P95 ≤ 30分钟 |
| 情感分析准确率 | 对舆情信息的情感倾向(正面/中性/负面)判断的准确率 | 人工标注200条舆情样本作为测试集,对比模型判断结果 | ≥ 85% |
| 实体识别准确率 | 正确识别舆情中涉及的机构、人员、产品、事件等关键实体的比例 | 人工标注实体,对比模型抽取结果,按实体级别计算准确率 | ≥ 90% |
四、评测数据集构建指南
4.1 场景化数据收集方法
高质量的场景化评测数据来源于以下渠道:
- 历史工单挖掘:从ITSM系统、知识库问答记录、客服对话记录中提取真实用户问题,这是最贴近实际使用场景的数据源
- 业务专家访谈:与业务部门开展联合工作坊,由一线业务人员提供高频场景和典型问题
- 监管文件梳理:从银保监会、人民银行等监管机构发布的政策文件中提取考核点,用于合规性评测
- 红队对抗构造:由安全测试团队构造对抗样本、边界用例和恶意输入,用于鲁棒性和安全性评测
- 生产环境采样:在灰度发布阶段从真实流量中采样,经过脱敏和标注后纳入评测集
4.2 数据标注质量控制
标注质量直接决定评测数据的可信度。建议建立如下质控流程:
- 双人标注+仲裁:每条数据至少由2人独立标注,不一致时由资深专家仲裁
- 标注一致性检验:定期计算标注者间一致性(如Cohen's Kappa),低于0.7需重新培训
- Golden Set锚定:维护一个已知标准答案的Golden Set(约占总量10%),用于校准标注质量和检测标注漂移
- 标注指南文档化:将标注规范、判定标准和典型案例形成文档,确保标注标准可传承
4.3 训练/验证/测试集划分
| 数据集 | 占比 | 用途 | 注意事项 |
|---|---|---|---|
| 训练集 | 约60% | 用于模型微调、Prompt优化(如进行SFT) | 仅需包含问题和参考答案,无需详细的评测标注 |
| 验证集 | 约20% | 用于调参、选择最佳模型版本、设定阈值 | 不得与训练集有重叠;用于迭代优化过程中的快速评估 |
| 测试集 | 约20% | 用于最终评测、上线前准入判定 | 严格隔离——仅在上线评测时使用,不参与任何训练和调参过程 |
4.4 数据持续更新机制
场景化评测数据不能"一劳永逸",需要建立持续更新机制:
- 季度更新:每季度根据业务变化、政策更新、新出现的问题类型补充评测数据
- 回归问题入库:将生产环境中发现的Bad Case、用户投诉案例进行标准化处理后纳入回归评测集
- 版本关联:标注数据与模型版本关联,确保每次评测使用的数据版本清晰可追溯
- 数据老化标注:对超过一定时间的数据标注"可能过时"标签,提示评测时需要关注时效性
五、人工评测与自动化评测结合
场景化评测中,完全依赖人工评测成本过高、周期过长,完全依赖自动化评测又难以覆盖主观判断维度。因此需要构建"自动化为主、人工为辅、交叉验证"的混合评测体系。
5.1 LLM-as-Judge方法
LLM-as-Judge是当前业界主流的大模型评测自动化方案:使用一个能力较强的"裁判模型"对被测模型的输出进行打分和评价。
- 直接评分法:裁判模型根据预定义的评分标准(1-5分Likert量表),对被评测输出给出整体评分和维度评分
- 成对比较法:同时呈现模型A和模型B的输出,由裁判模型判断哪个更好,适合版本对比评测
- 参考答案对比法:将被测输出与参考答案/标准答案进行对比,判断事实一致性、完整性
- 规则检查法:裁判模型按照预定义的检查清单逐项核查,适合格式审查、合规检查等结构化评测
5.2 人工抽检策略
人工评测虽然成本高,但在以下场景不可或缺:
- 上线准入评测:模型首次上线前的全量人工评测,确保关键指标达标
- 高风险场景:涉及合规、安全、资金等高风险场景,必须100%人工审核
- 裁判校准:定期从自动化评测结果中抽取样本(建议10%-20%)进行人工复核,校准自动化评测的可靠性
- Bad Case深度分析:对自动化评测中发现的低分案例和边界案例进行人工深度分析,挖掘根因
5.3 我处CSV+JMeter模式适配
已建立的CSV数据驱动+JMeter批量执行评测模式可以平滑适配场景化评测需求:
| 组件 | 在场景化评测中的角色 | 适配说明 |
|---|---|---|
| CSV数据文件 | 存储评测用例(场景描述、输入Prompt、预期输出、评判标准、难度标签) | 扩展CSV列结构,增加场景类别、应用范式标签、预期行为描述等字段 |
| JMeter测试计划 | 批量调用模型API,收集原始输出并写入结果文件 | 增加响应时间记录、Token消耗统计、错误重试逻辑 |
| 结果CSV | 存储模型原始输出及元数据(耗时、Token数、请求时间戳) | 可与预期输出并列存储,便于后续自动对比 |
| 评测脚本(Python) | 对结果CSV进行自动评分(规则匹配、LLM-as-Judge调用、指标统计) | 新增开发:按场景维度的分项评分、可视化报告生成 |
| 人工评测Excel模板 | 对自动化评分进行人工抽检和校准 | 在现有模板基础上增加人工评分列和偏差标记列 |
六、三阶段实施路径的评测配套
某银行AI建设工程的AI应用推进遵循三阶段实施路径,各阶段对评测的需求深度和广度不同,需要量力而行、渐进深化。
阶段一:辅助提效阶段(小通 / 小耘)
目标:AI作为辅助工具嵌入日常办公,允许人工兜底,评测目标为"能用"。
- 评测策略:轻量评测,聚焦基本可用性
- 评测数据:50-100条高频场景用例,覆盖核心功能
- 核心指标:答案准确率 ≥ 80%、格式遵循度 ≥ 85%
- 评测方式:以人工评测为主,辅以简单的规则检查(格式、关键词匹配)
- 产出物:快速评测报告(1页纸),重点标记P0级问题
阶段二:场景深探阶段(小鉴 / 小盾)
目标:AI深度介入核心业务场景(数据分析、合规审查),评测目标为"好用"。
- 评测策略:深度评测,覆盖多维度指标,建立基线
- 评测数据:200-500条场景用例,覆盖L1-L3不同难度,包含边界用例和对抗样本
- 核心指标:按各应用范式指标(SQL准确率 ≥ 85%、缺陷检出率 ≥ 95%等)
- 评测方式:自动化评测(CSV+JMeter+Python脚本)+ 人工抽检(20%样本)
- 产出物:详细评测报告 + 缺陷清单 + 改进建议
阶段三:体系融合阶段
目标:AI与核心业务系统深度融合,评测目标为"敢用"。
- 评测策略:全链路评测,覆盖端到端业务流程,建立持续监控体系
- 评测数据:500+条全场景用例 + 生产环境采样数据 + 持续更新的Bad Case库
- 核心指标:全链路SLA达成率、业务效果指标(效率提升比例、差错率降低比例)、用户满意度
- 评测方式:自动化持续评测 + 定期人工抽检 + 生产环境A/B测试 + 隐蔽层监控
- 产出物:评测Dashboard + 月度评测报告 + 模型退化预警机制
三阶段评测对比总览
| 维度 | 辅助提效阶段 | 场景深探阶段 | 体系融合阶段 |
|---|---|---|---|
| 评测深度 | 基本可用性 | 多维度深度评测 | 全链路业务评测 |
| 数据规模 | 50-100条 | 200-500条 | 500+条 + 生产采样 |
| 自动化程度 | 人工为主 | 自动化+人工抽检 | 自动化持续评测 |
| 评测周期 | 1周 | 2-4周 | 持续运行 |
| 涉及范式 | 小通、小耘 | 小鉴、小盾 | 全部六类范式 |
| 关键产出 | 快速评测报告 | 详细报告+缺陷清单 | Dashboard+预警机制 |
🛠️ 实战演练
以下为五个典型实战任务,覆盖某银行AI六类应用范式,可按需选做或顺序推进。每个任务均给出了完整的操作步骤、评估标准和预计耗时,便于团队快速上手。
实战任务1:设计小通(智能问答)评测方案
场景:银行内部制度问答系统(基于RAG架构)
步骤:
- 收集10份行内制度文档作为知识库(覆盖信贷、风控、合规、人事等高频领域)
- 设计20个测试问题(10个有标准答案的直查问题、5个模糊查询/多文档综合问题、5个知识库无覆盖的边界问题)
- 运行评测,逐条记录回答内容、引用来源和人工评分
- 统计准确率、拒答率、幻觉率,标注Bad Case并回溯根因
评估标准:答案准确率 > 85%,幻觉率 < 5%,边界问题拒答合理且不编造信息
产出物:评测记录表(含问题/回答/评分/根因)+ 评测小结报告
耗时:半天
实战任务2:设计小鉴(智能问数)NL2SQL评测方案
场景:银行业务数据自然语言查询(如"查询上月各分行对公存款余额TOP10")
步骤:
- 选定一个业务数据集(如对公存款表、贷款台账表),准备表结构说明文档
- 设计15条NL2SQL用例,覆盖:简单单表查询(5条)、多表JOIN查询(4条)、聚合/分组查询(3条)、含日期/条件筛选的复杂查询(3条)
- 编写预期SQL和预期执行结果作为标准答案
- 运行评测,对比生成SQL的语法正确性、语义等价性和执行结果
- 额外构造3条SQL注入类恶意输入,验证防护能力
评估标准:SQL执行正确率 ≥ 85%,SQL注入100%拦截,P95响应时间 ≤ 5秒
产出物:NL2SQL用例集(CSV格式)+ SQL对比报告 + 安全测试记录
耗时:1天
实战任务3:设计小耘(智能文案)质量评估方案
场景:辅助生成会议纪要、工作报告、制度修订稿
步骤:
- 准备3类文案模板(会议纪要、工作报告、制度文档),明确格式规范要求
- 每类模板设计3个测试Prompt(共9个),输入真实或脱敏后的业务材料
- 运行评测,收集模型生成的文案
- 从格式遵循度、内容完整性、合规性、风格一致性四个维度逐条评分
- 对同一Prompt重复生成3次,评估风格漂移程度
评估标准:格式遵循度 ≥ 95%,关键信息覆盖率 ≥ 90%,合规违规检出率 ≥ 98%,风格波动在可接受范围
产出物:文案评测维度评分表 + 风格漂移对比分析 + 合规扫描结果
耗时:1天
实战任务4:设计小盾(智能审查)缺陷检出率测试
场景:合同/制度文档的缺陷识别与风险提示
步骤:
- 收集3-5份真实合同或制度文档(脱敏处理),标注已知缺陷清单(至少每份文档埋入5-8个缺陷,涵盖条款缺失、金额/日期矛盾、合规违规、逻辑冲突等类型)
- 将文档输入小盾,收集模型检出的所有缺陷项
- 逐项比对:模型检出的缺陷 vs 人工标注的已知缺陷,计算检出率(召回)和误报率
- 对漏检和误报案例进行根因分析,输出改进建议
- 评估引入小盾后人工审查效率的提升幅度(A/B对比)
评估标准:缺陷检出率(召回)≥ 95%(关键缺陷 ≥ 99%),误报率 ≤ 15%,人工效率提升 ≥ 50%
产出物:缺陷检出-误报对照表 + 根因分析报告 + 效率对比数据
耗时:1.5天
实战任务5:设计小绘/小哨(多模态生成+舆情监测)评测方案
场景A - 小绘:海报/图表/宣传素材生成;场景B - 小哨:某银行相关舆情实时监测与预警
小绘步骤:
- 设计5个不同风格要求的图像生成Prompt(商务办公、水墨中国风、数据图表等)
- 每个Prompt生成3张图像,由3名评测员独立评分(1-5分,维度:质量/文图一致性/风格匹配)
- 逐图检查品牌合规性(无其他Logo、无侵权元素、符合VI规范)
小哨步骤:
- 准备50条历史舆情样本(含正面/中性/负面,其中10条为重大负面),人工标注情感倾向和预警等级
- 运行评测,统计预警准确率、漏报率和情感分析准确率
- 测量端到端延迟(舆情发生→系统预警),验证P95 ≤ 30分钟
评估标准:小绘图像质量均分 ≥ 3.5,文图满足率 ≥ 80%,品牌违规率 = 0;小哨预警准确率 ≥ 80%,重大舆情漏报率 ≤ 1%,情感分析准确率 ≥ 85%
产出物:多模态评测评分汇总表 + 舆情监测评测报告 + 延迟统计
耗时:1.5天(两个场景可并行)
📋 某银行AI建设工程验收对照表
以下对照表梳理了各应用范式在T+2(场景深探阶段)和T+5(体系融合阶段)的关键验收项,供AI测试团队在里程碑评审时参考使用。
| 应用范式 | 测试内容 | T+2 阶段验收项 | T+5 阶段验收项 |
|---|---|---|---|
| 🟢 小通 (智能问答) |
答案准确性 | 准确率 ≥ 85%,Top-50高频问题全量通过 | 准确率 ≥ 90%,覆盖200+场景用例,生产环境采样月均准确率 ≥ 88% |
| 知识覆盖与时效性 | 知识覆盖度 ≥ 80%,核心制度文档100%入库 | 知识覆盖度 ≥ 85%,建立季度知识库更新机制,政策时效性自动校验 | |
| 拒答与幻觉控制 | 幻觉率 ≤ 8%,边界问题有明确拒答提示 | 幻觉率 ≤ 5%,建立幻觉自动检测+人工抽检常态化机制 | |
| 来源可追溯 | 引用率 ≥ 70%,引用准确率 ≥ 90% | 引用率 ≥ 80%,引用准确率 ≥ 95%,支持一键跳转源文档 | |
| 🔵 小鉴 (智能问数) |
NL2SQL准确性 | SQL执行正确率 ≥ 80%,覆盖核心业务表单表查询 | SQL执行正确率 ≥ 85%,覆盖复杂多表JOIN、聚合查询、嵌套子查询 |
| 安全性 | SQL注入100%拦截,危险操作(DROP/DELETE无WHERE)零容忍 | 完善SQL安全审计日志,接入数据库防火墙联动 | |
| 性能与可视化 | P95响应 ≤ 8秒,图表类型正确率 ≥ 85% | P95响应 ≤ 5秒,图表正确率 ≥ 90%,支持多图表联动和自定义看板 | |
| 🟣 小耘 (智能文案) |
格式规范性 | 格式遵循度 ≥ 90%,三类核心文档模板覆盖 | 格式遵循度 ≥ 95%,全部公文模板均覆盖,支持一键导出标准格式 |
| 内容质量 | 关键信息覆盖率 ≥ 85%,无明显歧义和事实错误 | 关键信息覆盖率 ≥ 90%,风格一致性经多轮验证,建立内容质量评分卡 | |
| 合规扫描 | 违规检出率 ≥ 95%,无监管红线违规 | 违规检出率 ≥ 98%,合规关键词库季度更新,接入最新监管政策 | |
| 🔴 小盾 (智能审查) |
缺陷检出率 | 召回率 ≥ 90%,覆盖合同审查核心缺陷类型 | 召回率 ≥ 95%(关键缺陷 ≥ 99%),覆盖全量预定义缺陷类型体系 |
| 误报控制 | 误报率 ≤ 20%,允许在召回优先策略下的适度误报 | 误报率 ≤ 15%,建立误报反馈闭环(人工复核结果回流优化模型) | |
| 业务效果 | 人工效率提升 ≥ 30%,形成初步人机协作SOP | 人工效率提升 ≥ 50%,建立"AI初筛+人工复核"标准化流程并纳入制度 | |
| 🟠 小绘 (多模态生成) |
图像质量与一致性 | 图像质量均分 ≥ 3.0,文图要素满足率 ≥ 70% | 图像质量均分 ≥ 3.5,文图要素满足率 ≥ 80%,风格可控性 ≥ 85% |
| 品牌合规 | 无第三方Logo侵权,基本符合VI规范 | 品牌违规率 = 0,建立VI合规自动检查工具,生成素材入库前全量扫描 | |
| 🔷 小哨 (舆情监测) |
预警准确性 | 预警准确率 ≥ 75%,重大舆情漏报率 ≤ 3% | 预警准确率 ≥ 80%,重大舆情漏报率 ≤ 1%,7×24小时持续运行无中断 |
| 实时性 | P95延迟 ≤ 1小时,工作时间覆盖 | P95延迟 ≤ 30分钟,全时段覆盖(含节假日),高并发场景(舆情爆发)不降级 | |
| 智能化程度 | 情感分析准确率 ≥ 80%,实体识别准确率 ≥ 85% | 情感分析准确率 ≥ 85%,实体识别准确率 ≥ 90%,支持舆情趋势预测和关联分析 | |
| 📊 共性要求 (全部范式) |
评测体系建设 | 各范式完成首次场景化评测,输出评测报告作为T+2里程碑准入材料 | 建立自动化持续评测Pipeline,评测Dashboard上线,模型退化自动预警 |
| 评测数据积累 | 各范式积累 ≥ 50条评测用例,其中 ≥ 30%为人工精标数据 | 各范式积累 ≥ 200条评测用例,建立Bad Case库和回归评测集,数据季度更新 |
T+5阶段:全部指标达标方可申请正式上线。涉及资金、合规、安全的高风险范式(小盾、小哨、小鉴)需额外通过一次由业务部门+风险管理部门联合组织的上线评审。