✅ 输出验证与安全过滤

🎯 输出验证的必要性

即使 LLM 的输入是安全的，其输出也可能包含有害内容。Agent 的输出不仅包括对用户的文本回复，还包括工具调用的参数、生成的代码、数据处理结果等。不经验证的输出直接进入下游系统，等同于信任了一个不可控的生成器。

原始生成

→

有害/敏感

→

脱敏/过滤

→

法规/政策

→

Schema 校验

→

二次确认

→

放行

使用多层检测机制对输出内容进行安全审查，覆盖有害内容、违法信息、恶意代码等多个维度。

检测维度	检测方法	工具/方案
有害内容	基于分类模型的内容安全审核	OpenAI Moderation API、Azure Content Safety、Perspective API
恶意代码	静态分析 + 模式匹配	Semgrep、自定义规则引擎
系统指令	检测输出中是否包含 system prompt 片段	相似度匹配、关键词过滤
注入 Payload	检测输出中是否包含典型的注入模式	正则匹配 OWASP 注入特征
越狱内容	检测 LLM 是否输出了应被拒绝的内容	独立分类器、对比原始限制规则

个人身份信息（PII）泄露是最常见的 Agent 安全事故之一。需要通过多种手段防止 PII 出现在 Agent 的输出中。

PII 类型	示例	检测方式	处理方式
身份证号	110101199001011234	正则 + 校验位	掩码: 110101********1234
手机号	13812345678	正则	掩码: 138****5678
邮箱	user@company.com	正则 + DNS校验	掩码: u***@company.com
银行卡号	6222021234567890	Luhn 算法	掩码: ****7890
IP 地址	192.168.1.100	正则	掩码或替换为 0.0.0.0
API Key / Token	sk-abc123...	熵检测 + 正则	拦截并告警

Agent 输出需要符合行业法规和企业政策，不同行业有不同的合规要求。

当 Agent 输出需要被下游系统消费时（如工具调用的参数、API 请求体），必须进行严格的格式校验。

对于不可逆或高风险的操作，在输出验证的最后一步引入二次确认机制。

💡 最佳实践 输出验证应采用"默认拒绝"策略：所有输出默认不可信，只有通过全部验证环节的才允许放行。流水线中任一环节失败都应阻断输出，绝不降级通过。对于低风险的格式问题可以采用自动重试 + 修正策略。

AI智能体开发知识库 · 安全与对齐 · 输出验证与安全过滤