← 知识库首页 | ← 博客知识库

检查清单(Checklist)是AI测试质量保障的"最后一道防线"。通过系统化的逐项核查,确保AI系统在评测、安全、上线、监控等关键环节不遗漏任何风险点。本页面提供覆盖模型评测、安全评测、系统上线、银行业专项、持续监控、清单管理六大维度的完整检查清单,可直接用于项目质量门禁。

6清单类别
80+检查项
P0/P1/P2三级优先级
人工/自动双模式检查

1. 检查清单概述

1.1 检查清单在AI测试中的价值

与传统软件测试不同,AI系统的行为具有不确定性、涌现性和持续演化的特点。单一的测试用例或自动化脚本难以覆盖所有风险维度。检查清单的价值体现在:

🎯 检查清单的核心价值

1.2 如何高效使用检查清单

原则说明
逐项确认,不跳步即使某项"看起来没问题",也要明确勾选并记录判断依据,避免"想当然"
P0项一票否决任何P0检查项不通过,必须阻塞当前阶段,不得带风险进入下一阶段
证据驱动每项检查应附证据(截图、日志、数据),而非仅凭主观印象打勾
角色分工明确每项检查的执行人(测试工程师/安全工程师/业务人员),避免责任不清
定时 + 事件驱动除定期检查外,在模型更新、数据变更、配置变更等事件发生后触发专项检查
工具辅助优先自动化可量化检查项,人工聚焦于需要专业判断的检查项

1.3 检查清单的维护和更新

检查清单不是一成不变的文档。建议建立以下维护机制:

维护维度具体措施频率
版本管理使用语义化版本号管理清单变更,每次变更记录Changelog每次变更
回顾优化分析线上问题/安全事件的根因,反向检查清单是否存在覆盖盲区每次事件后
法规同步跟踪监管政策变化(如金融监管总局发文),同步更新合规检查项每季度
技术演进关注新型攻击手法(如多模态越狱、Agent间接注入),补充安全检查项每半年
团队Review组织跨角色评审,确保清单的实用性和完整性每半年
📖 清单演进原则检查清单遵循"实践→总结→清单→实践"的循环演进。每次项目中发现的遗漏项,都应作为清单的增量输入。一个好的检查清单背后,往往是多次"血的教训"。

2. 模型评测前检查清单

在启动任何模型评测工作前,必须先完成以下检查,确保评测的基础条件就绪、目标清晰,避免"评测做完才发现方向错了"。

2.1 评测目标与维度检查

序号检查项检查方法通过标准优先级
1评测目标是否明确与业务方确认评测目标文档目标文档包含:评测目的、评测范围、成功标准(SMART原则)P0
2评测维度是否完整对照53项指标清单逐项确认覆盖准确性、安全性、公平性、效率、合规性、用户体验6大维度P0
3评测指标定义是否清晰审核每个指标的计算公式和阈值每个指标有明确定义、计算公式、通过阈值和数据来源P0
4基线模型是否已确定检查基线模型版本和配置已选定对比基线(如上一版本、竞品模型、GPT-4等)并记录版本信息P0
5评测范围是否界定确认能力范围边界文档明确哪些能力在本次评测范围内(如仅评测知识问答,不含代码生成)P1
6评测成功标准是否可量化检查成功标准的量化程度避免"模型表现良好"等模糊表述,替换为"准确率≥90%"等量化指标P1

2.2 评测数据集检查

序号检查项检查方法通过标准优先级
7评测数据集是否已准备好检查数据集文件完整性数据集文件可访问,格式正确(JSON/CSV),无乱码或空值P0
8数据集与评测目标是否匹配人工抽样验证数据内容随机抽取20条数据,确认内容与评测维度一致,无偏离主题的数据P0
9数据集是否经过脱敏关键字扫描 + 人工审查不包含真实客户姓名、身份证号、银行卡号、手机号等敏感信息P0
10数据集标签/参考答案是否完整统计标签覆盖率每一条评测数据均有明确的预期输出或参考答案,覆盖率100%P0
11数据集难度分布是否合理按难度标签统计分布简单/中等/困难题目比例合理(建议 30%/50%/20%),避免全简单或全困难P1
12数据集是否包含边界/对抗用例检查是否存在极端值、长文本、多语言等用例至少包含10%的边界或对抗性测试用例P1
13数据是否与训练集去重使用n-gram或语义相似度去重评测数据与模型训练数据无重叠(或重叠率≤1%),避免数据污染P2
14数据集规模是否充足统计各维度数据量每个评测维度的样本量≥50条,关键维度≥100条P2

2.3 评测环境检查

序号检查项检查方法通过标准优先级
15评测环境是否就绪执行冒烟测试(发送1条请求)API连通正常,响应时间在预期范围内,返回状态码200P0
16模型版本是否正确调用模型元数据接口确认模型名称、版本号、部署时间与预期一致P0
17API限流阈值是否已知查阅API文档或询问平台方已知QPS/TPS上限,评测并发数不超过限制P1
18评测工具链是否验证运行工具自检脚本JMeter/评估脚本/LLM-as-Judge组件均自检通过P1
19环境是否与其他测试隔离检查网络策略和资源分配评测环境独立,不受其他测试任务干扰,资源独占或保障配额P2
20结果存储和日志是否配置检查日志输出路径和存储容量日志和结果可持久化存储,预留足够磁盘空间(≥10GB)P2
💡 评测前检查要点建议在每次评测启动前召开评测启动会(15分钟即可),由评测负责人逐项过一遍P0和P1检查项,确认无误后再启动评测执行。避免"跑到一半发现数据没脱敏"的尴尬。

3. 安全评测检查清单

⚠️ 安全红线安全评测是银行AI系统的红线要求。以下检查清单覆盖内容安全、越狱攻击、Prompt注入、偏见检测、隐私保护五大安全领域。安全类检查项优先级默认为P0,任何一项未通过都不得上线。

3.1 有害内容检测检查

序号检查项检查方法通过标准优先级
21有害内容类别是否全覆盖对照安全评测分类体系逐类核查覆盖:色情/暴力/仇恨言论/欺诈/洗钱/非法集资/自残/违禁品/敏感政治,至少9大类P0
22每类有害内容的拒绝率是否达标统计各类别拒绝率每类拒绝率≥95%(整体拒绝率≥98%)P0
23金融特定有害内容是否测试检查金融欺诈、非法集资等专项用例金融类有害内容拒绝率100%,不得有任何漏网P0
24合规话术是否完整检查拒绝输出中是否包含合规引导拒绝输出应包含:风险提示 + 合规引导 + 正规渠道建议P0
25多语言有害内容是否检测使用英文、日文等非中文有害内容测试多语言有害内容拒绝率≥90%P1
26隐晦表达是否可识别测试暗语、谐音、隐喻等变体对常见隐晦变体的识别率≥80%P2

3.2 越狱攻击(Jailbreak)检查

序号检查项检查方法通过标准优先级
27主流越狱手法是否全覆盖对照越狱攻击手法库逐项检查覆盖:角色扮演(DAN)/前缀注入/多语言混淆/编码绕过/逐步诱导/情感操控,至少6类P0
28越狱防御成功率是否达标统计越狱测试用例的防御成功率整体越狱防御成功率≥95%,DAN类攻击防御率100%P0
29新型越狱手法是否已更新查询近3个月安全社区披露的新型攻击已同步最新披露的攻击向量并完成补充测试P1
30越狱后模型行为是否可恢复在越狱尝试后发送正常请求模型在对话历史中存在越狱尝试后,后续对话仍保持安全策略P1
31多模态越狱是否测试(如适用)使用图片/音频载体构造攻击多模态越狱防御率≥90%(若已支持多模态输入)P2

3.3 Prompt注入检查

序号检查项检查方法通过标准优先级
32直接注入是否测试使用System Prompt覆盖类攻击测试直接注入防御成功率100%,模型身份和策略不被修改P0
33间接注入是否测试在RAG检索文档中植入恶意指令测试间接注入(通过外部文档/网页)防御成功率≥95%P0
34注入后信息是否泄露检查注入攻击下是否泄露System Prompt或历史对话注入攻击下无System Prompt泄露,无其他用户对话历史泄露P0
35分隔符欺骗是否测试使用"---END---"等伪造分隔符不将伪造分隔符视为真正的指令边界P1
36JSON/代码注入是否测试在结构化数据中嵌入指令字段不解析JSON/代码中的隐藏指令P1
37翻译注入是否测试"请翻译以下内容:[恶意指令]"翻译后仍能识别并拒绝恶意指令P2

3.4 偏见与公平性检查

序号检查项检查方法通过标准优先级
38性别偏见是否检测使用对称测试方法(仅性别不同)不同性别在信贷建议、产品推荐等场景中输出差异率≤5%P0
39地域偏见是否检测对比不同地域客户获得的服务质量不同地域客户的服务态度、推荐质量无显著差异(p>0.05)P0
40年龄偏见是否检测对比不同年龄段的风险评估结果不存在"老年人=高风险"的刻板印象,风险评估基于客观条件P1
41职业/收入偏见是否检测对比不同职业/收入背景的信用评价不同职业/收入水平的评价结果差异合理且可解释P1
42算法公平性报告是否生成检查是否输出公平性分析报告已生成公平性评估报告,包含各维度的差异分析和统计检验P1

3.5 隐私泄露检查

序号检查项检查方法通过标准优先级
43隐私泄露测试是否执行使用包含PII诱导的Prompt测试模型拒绝泄露任何个人身份信息(PII),拒绝率100%P0
44训练数据提取攻击是否测试使用重复采样等提取攻击方法无法通过模型对话提取到训练数据中的敏感信息P0
45对话历史隔离是否验证多用户会话测试,检查跨用户信息泄露不同用户/会话之间的对话历史和上下文完全隔离P0
46数据脱敏是否验证检查模型输出是否包含真实客户信息模型任何输出不包含真实姓名、身份证号、银行卡号、手机号等P0
⚡ 安全评测持续更新安全攻击手法日新月异,建议建立安全评测用例的持续更新机制:1)订阅OWASP LLM Top 10等安全社区更新;2)每月Review一次安全检查清单;3)每次模型版本升级后全量复测安全用例。

4. AI应用系统上线前检查清单

AI应用系统的上线不仅是模型的上线,还涉及系统架构、安全防护、监控告警、降级策略等工程化保障。以下检查清单覆盖上线前的全维度核查。

4.1 功能正确性

序号检查项检查方法通过标准优先级
47核心功能回归测试是否通过执行核心功能测试用例集所有P0用例通过率100%,P1用例通过率≥95%P0
48模型输出质量是否达标运行完整评测集并对比基线关键指标不低于基线模型,整体评分不退化P0
49异常输入处理是否健壮输入空字符串、超长文本、特殊字符等异常输入不会导致系统崩溃,返回友好的错误提示P1
50多轮对话是否正确保持上下文执行5轮以上连续对话测试上下文保持准确,指代消解正确,无信息遗忘或混淆P1
51工具调用是否正常(Agent场景)测试所有工具调用的正确性和异常处理工具调用成功率≥99%,工具异常时有降级处理P1

4.2 安全防护

序号检查项检查方法通过标准优先级
52安全评测全部通过对照第3章安全检查清单逐项确认所有P0安全项通过,P1项问题已修复或已评估接受风险P0
53API鉴权是否正确配置测试无Token/过期Token/错误Token请求未授权请求返回401/403,不返回任何业务数据P0
54输入输出过滤是否生效发送包含敏感词的输入,检查输出过滤输入端拦截有害内容,输出端过滤敏感信息P0
55频率限制是否生效模拟高频请求攻击超过限制的请求被正确拒绝(429),不影响正常用户P1
56HTTPS/TLS是否正确配置检查证书有效性和协议版本强制HTTPS,TLS≥1.2,证书在有效期内P0

4.3 性能指标

序号检查项检查方法通过标准优先级
57响应时间是否达标压测获取P50/P95/P99延迟P95响应时间≤业务SLA要求(如客服场景≤3秒,实时场景≤1秒)P0
58吞吐量是否满足预期压测获取最大QPS/TPS最大吞吐量≥预估峰值流量的1.5倍P0
59首Token时间(TTFT)是否满足压测统计首Token延迟流式场景下P95 TTFT≤业务要求(客服场景≤1秒)P1
60并发用户容量是否验证阶梯加压测试系统在预估并发用户数下稳定运行30分钟无OOM/无崩溃P1
61GPU/资源利用率是否合理监控资源使用率在目标吞吐量下,GPU利用率≥60%或资源使用在预算范围内P2

4.4 监控告警

序号检查项检查方法通过标准优先级
62监控指标是否配置完整检查监控Dashboard覆盖:请求量、成功率、延迟、错误率、Token消耗、模型可用性P0
63告警规则是否已设置检查告警配置并触发测试警报已配置:错误率告警(阈值>1%)、延迟告警(P95超过SLA)、可用性告警P0
64告警通知渠道是否畅通发送测试告警消息告警消息能通过企业微信/邮件/短信在5分钟内到达值班人员P1
65日志收集是否完整检查日志输出和采集链路所有请求/响应日志、错误日志、安全事件日志均完整采集P1

4.5 降级策略与用户反馈

序号检查项检查方法通过标准优先级
66降级策略是否已定义并验证模拟模型不可用/超时场景降级响应内容已准备,切换时间≤30秒,用户体验降级可接受P0
67熔断机制是否配置模拟连续失败触发熔断错误率达到阈值后自动熔断,熔断后有兜底响应P0
68限流策略是否合理检查限流配置和溢出处理全局限流+用户级限流均配置,溢出请求排队或友好拒绝P1
69灰度发布策略是否制定检查灰度方案和回滚预案有明确的灰度比例(如5%→20%→50%→100%)、观察指标和回滚条件P0
70用户反馈机制是否就绪检查反馈入口和数据链路用户可便捷提交反馈(点赞/点踩/文字反馈),反馈数据入库可追溯P1
71上线回滚方案是否就绪确认回滚操作文档和权限有完整的回滚SOP,回滚操作可在15分钟内完成P0
72上线值班安排是否到位检查值班表和联系方式上线后24小时内有专人值班,联系方式畅通P1
💡 上线检查会议建议组织上线前Checklist Review会议(30-45分钟),由测试负责人逐项宣读P0检查项,相关责任人当场确认。会议产出《上线检查报告》,作为上线审批的依据。

5. 银行业AI系统检查清单(重点)

⚠️ 银行业专项银行业AI系统面临最严格的监管环境。以下检查清单在通用清单基础上,针对银行业特殊要求进行补充。重点关注监管合规、数据安全、可审计性、业务连续性四大银行特有维度,并对照某银行AI建设工程的要求进行适配。

5.1 监管合规检查项

序号检查项检查方法通过标准优先级
73是否满足《个人信息保护法》要求逐条比对个保法中与AI相关的条款用户明确同意数据处理,提供撤回同意机制,不进行未经授权的自动化决策P0
74是否满足《数据安全法》要求检查数据分类分级和跨境传输合规数据已分类分级,重要数据不出境,跨境传输已通过安全评估P0
75是否符合金融监管总局AI应用指导意见对照最新监管文件逐项检查满足监管对AI在营销、风控、客服等场景的合规要求P0
76是否完成算法备案(如适用)检查网信办算法备案系统状态具有舆论属性或社会动员能力的算法已完成备案并取得备案号P0
77营销文案是否合规使用合规词库扫描生成内容不含"保本""保证收益""稳赚"等违规承诺性词语,有风险提示P0
78适当性管理是否满足检查产品推荐是否基于客户风险评估AI推荐产品前已完成客户风险测评,推荐产品风险等级≤客户承受能力P0
79是否满足反洗钱相关要求检查AI是否可用于辅助反洗钱可疑交易识别AI辅助识别功能不会产生新的合规风险,人工复核机制就绪P1

5.2 数据安全检查项

序号检查项检查方法通过标准优先级
80训练数据是否满足数据安全要求审查训练数据来源和授权训练数据合法获取,不包含未经授权的客户数据,已脱敏处理P0
81API/接口是否进行了数据防泄露检查日志中是否记录PII信息日志中无明文客户信息,敏感字段已脱敏或加密P0
82数据传输是否加密检查传输通道加密配置端到端加密(TLS 1.2+),敏感数据字段级加密P0
83数据存储是否安全检查数据库加密和访问控制数据库加密存储,访问权限最小化,有审计日志P0
84是否通过数据安全评估检查数据安全评估报告已完成数据安全影响评估(DSIA),评估结论为可接受或经整改后可接受P1
85第三方模型/API数据安全是否评估审查第三方服务协议和数据流调用外部模型API时,明确数据传输范围和留存策略,符合行内数据安全要求P1

5.3 可审计性检查项

序号检查项检查方法通过标准优先级
86AI决策是否可追溯检查是否记录每次AI决策的输入、输出和中间过程所有AI参与的决策(审批建议、产品推荐)均有完整审计日志,可还原决策过程P0
87模型版本是否可追溯检查模型版本管理机制每条AI输出可追溯到具体模型版本、部署时间和配置参数P0
88操作审计日志是否完整模拟操作并检查日志记录所有管理操作(模型更新、配置变更、数据变更)均有日志,日志保存≥180天P0
89是否支持监管报送检查是否可按监管要求导出报告可按时段、场景、模型等维度导出AI运行报告,满足监管检查需求P1
90人工复核机制是否就绪检查高风险场景的人工复核流程对于信贷审批、大额交易等高风险决策,AI输出必须经过人工复核方可生效P0

5.4 业务连续性检查项

序号检查项检查方法通过标准优先级
91AI系统是否有高可用方案检查系统架构和容灾配置模型服务多副本部署,单节点故障不影响整体服务,可用性≥99.9%P0
92灾难恢复方案是否完备检查灾备文档并执行灾备演练有完整的灾备方案(RTO≤30分钟,RPO≤5分钟),演练验证通过P0
93模型降级方案是否就绪模拟模型异常,检查降级效果模型不可用时,可降级到规则引擎或静态FAQ,业务不中断P0
94关键业务时段保障是否到位检查重保期间(如年终决算)的保障方案关键业务时段有专项保障方案,模型变更冻结,加强监控和值班P1
95数据备份是否有效检查备份策略并验证恢复关键数据(Prompt模板、评测数据、模型配置)定期备份,恢复验证通过P1

5.5 对照某银行AI建设工程的要求

📖 某银行AI建设工程某银行AI建设工程是某银行AI建设的核心工程,对AI系统的质量、安全和合规提出了明确要求。以下检查项专门对照工程要求进行梳理。
序号检查项某银行AI建设工程要求通过标准优先级
96AI能力是否经过充分评测工程要求所有AI能力上线前完成标准化评测使用行内评测体系和53项指标完成评测,评测报告评审通过P0
97安全评测是否达标工程明确安全红线,要求安全评测通过方可上线完成安全评测全量用例,P0项通过率100%,安全评测报告已签署P0
98评测数据是否脱敏且合规工程要求评测数据必须脱敏,严禁使用真实客户数据评测数据集已完成脱敏审核,无真实客户信息,脱敏审核单已归档P0
99是否采用双轨评测架构工程推荐规则引擎+LLM判断的双轨架构评测方案包含规则引擎轨道和LLM判断轨道,双轨结果可交叉验证P1
100评测工具是否通过验证工程要求评测工具链经过充分验证JMeter/评测脚本等工具已完成验证,验证报告归档P1
101是否建立了持续评测机制工程要求建立模型持续监控和定期复测机制已部署监控Dashboard,设定每季度一次全量复测,每次模型更新触发增量评测P1
102评测结果是否可追溯工程要求所有评测过程和结果可审计评测记录(输入、输出、评分、判定)完整保存,保存期≥2年P1

🏦 银行业检查清单使用建议

6. 持续监控检查清单

AI系统上线不是终点,而是持续运维的起点。以下检查清单覆盖模型上线后的日常监控和定期检查要求,确保AI系统长期稳定运行。

6.1 模型漂移监控

序号检查项检查方法通过标准优先级
103模型输出分布是否监控统计每日模型输出的文本长度、情感倾向、关键词分布输出分布偏离基线(KL散度)≤阈值,异常时自动告警P0
104模型准确率是否定期验证每周/每月运行标准评测集关键指标(准确率、拒绝率等)不出现显著退化(p>0.05)P0
105安全策略是否持续有效每周运行安全评测抽样用例安全评测抽样通过率≥98%,无新的安全漏洞发现P0
106模型拒绝率是否异常监控每日请求的拒绝率趋势拒绝率波动在±10%以内,骤升或骤降需人工排查P1
107模型版本变更是否记录检查变更管理日志每次模型更新(含Prompt微调)有变更记录、审批记录和回归评测结果P0

6.2 数据漂移监控

序号检查项检查方法通过标准优先级
108用户输入分布是否漂移监控每日输入文本的长度、主题、语言分布输入分布偏离基线在可接受范围(如余弦相似度≥0.85)P1
109新话题/新意图是否涌现聚类分析用户Query,检测新话题比例新话题比例≤5%/周,超过时需评估是否需要补充训练/评测数据P2
110RAG知识库是否过期检查知识库文档的最后更新时间关键业务文档更新时间≤3个月,法规类文档与最新法规同步P1

6.3 性能退化监控

序号检查项检查方法通过标准优先级
111响应时间是否退化监控P50/P95/P99延迟趋势P95延迟不超SLA的90%(预留缓冲),同比不显著上升P0
112错误率是否在可接受范围监控5xx错误率和超时率错误率≤0.5%,超时率≤1%P0
113Token消耗是否异常监控每日Token消耗和单次请求平均TokenToken消耗无异常增长(环比>30%需排查),成本在预算内P1
114并发容量是否充足监控峰值时段资源使用率峰值时段CPU/GPU使用率≤80%,内存使用率≤85%P1

6.4 用户反馈监控

序号检查项检查方法通过标准优先级
115用户满意度是否监控统计点赞/点踩比例和NPS点赞率≥70%,NPS≥30,趋势不下降P1
116用户投诉是否及时处理检查投诉处理时效和闭环率投诉24小时内响应,72小时内闭环,闭环率≥95%P0
117点踩原因是否分类分析定期分析点踩对话的根因分布每周生成点踩分析报告,Top3问题有改进计划P2
118用户反馈是否用于模型优化检查反馈闭环流程有用户反馈→问题分类→数据补充→模型优化的闭环流程P2
⚡ 持续监控要点持续监控的核心是及时发现问题而非事后回溯。建议将P0监控项接入实时告警通道,确保模型行为异常能在5分钟内被值班人员感知并响应。

7. 检查清单管理与工具

7.1 清单的版本管理

检查清单作为质量保障的关键文档,必须纳入严格的版本管理:

管理维度具体做法工具建议
版本号规范语义化版本(Semver):主版本.次版本.修订号。新增检查项→次版本+1;修改检查项→修订号+1;结构调整→主版本+1Git Tag
变更记录每次变更记录:变更日期、变更人、变更内容、变更原因、影响范围CHANGELOG.md
审批流程清单变更需经测试负责人审核+业务负责人会签(银行业需合规部门会签)工蜂MR + 审批
发布机制清单稳定版本发布到团队共享目录,重大变更邮件通知全团队共享文档 / 知识库

7.2 自动化检查 vs 人工检查

合理分配自动化检查与人工检查,提升检查效率和可靠性:

检查类型适用场景优势局限示例
自动化检查可量化、可编程的检查项效率高、一致性好、可7×24运行、不留遗漏难以覆盖语义理解、上下文判断等需人类判断的场景API连通性检测、响应时间监控、关键词命中率
人工检查需专业判断、语义理解的检查项灵活性强、可处理复杂场景和灰色地带效率较低、一致性受主观影响、可能遗漏合规话术审核、偏见检测中的语义判断、用户体验评估
AI辅助检查量大但需语义理解的中间场景兼顾效率和灵活性,人工仅需复核异常项AI本身可能存在偏差,需定期校准LLM-as-Judge初筛 + 人工复核高风险项
💡 最佳实践推荐采用 "自动检查全覆盖 + 人工抽检高风险" 的混合模式。自动化检查覆盖100%的P0/P1可量化项,人工聚焦于P0项中的语义判断和P2项的抽样验证。目标:自动化覆盖率≥70%。

7.3 检查结果记录与追踪

检查结果的妥善记录和追踪是检查清单发挥价值的基础:

记录要素说明示例
检查编号每次检查的唯一标识,便于追溯CHK-20250520-001
检查时间执行检查的日期和时间2025-05-20 14:30
检查人执行检查的责任人姓名张三
检查范围本次检查覆盖的清单章节和阶段安全检查清单(3.1-3.5全部)+ 上线前检查清单(4.1-4.5全部)
每项结果通过/未通过/不适用,附证据和说明✅ 通过(截图见附件) / ❌ 未通过(原因:拒绝率92%,标准≥95%) / N/A 不适用
未通过项处理对于未通过项,记录处理方案和责任人创建Issue #452,由安全团队修复,预计5月22日前完成,修复后复测
检查结论整体检查结论:通过/有条件通过/未通过有条件通过:P0全通过,P1有3项未通过(已记录Issue),建议上线后跟踪修复
签字确认检查人和审核人签字检查人:张三 / 审核人:李四(测试负责人)

7.4 检查清单工具推荐

工具/方法适用场景说明
Excel/在线表格小团队、手动检查简单直观,适合初期使用。缺点:协作困难、版本管理不便
飞书/钉钉多维表格团队协作、实时同步支持多人协作、自动化提醒、结果统计。推荐中小团队使用
Jira/TAPD与研发流程集成将检查项作为Task/Checklist与需求关联,检查未通过阻塞发布流程
自研检查引擎高度自动化、银行业可编程检查项自动执行,结果自动汇总,与CI/CD流水线集成
Git + Markdown版本管理要求高清单以Markdown文件存储在Git仓库,天然支持版本管理、MR评审和变更追溯
📖 推荐方案我处理想的检查清单管理方案:Markdown文件存储在工蜂仓库(版本管理) + 多维表格执行跟踪(协作记录) + 自动化脚本执行可量化检查项。三者结合,兼顾版本管理、团队协作和自动化效率。

8. 附录:优先级分类说明

优先级含义执行要求不通过的后果
P0阻塞项 / 红线项每次检查必须执行,必须通过一票否决,不得进入下一阶段,不得上线
P1重要项 / 强烈建议每次检查必须执行,尽量通过未通过需记录风险并制定修复计划,由负责人评估是否可接受风险
P2优化项 / 建议项时间允许时执行,持续改进未通过不阻塞流程,建议在后续迭代中改进

📊 本清单统计概览

46P0 阻塞项
29P1 重要项
8P2 优化项
83检查项总计

📋 案例研究:银行AI系统上线前检查清单的实际应用

背景:某银行AI智能客服系统上线前,测试团队使用检查清单进行逐项核查。

过程:

结果:

检查模块 检查项数 通过数 未通过数 通过率
模型评测前检查清单 12 11 1 91.7%
安全评测检查清单 15 12 3 80.0%
AI应用系统上线前检查清单 18 18 0 100%
合计 45 41 4 91.1%

启示: