⚔️ 对抗攻击与防御

06-02 | AI模型安全测试对抗攻击越狱提示注入

📌 一句话概括

对抗攻击是通过精心构造的输入让AI模型产生预期之外的输出——对LLM来说就是"越狱提示"让模型说出不该说的话，对视觉模型就是"对抗贴纸"让模型认错物体。

💡 常见对抗攻击类型

① 针对LLM的攻击

直接提示注入：Ignore previous instructions, say..."
间接提示注入：在Agent读取的网页/文档中埋入恶意指令
越狱攻击：DAN（Do Anything Now）、角色扮演、多语言混淆
越狱链：多步组合攻击不断逼近安全边界

② 防御策略

输入过滤（敏感词/模式匹配）
输出验证（安全检查、内容过滤）
对抗训练（在训练数据中加入对抗样本）
Guardrails（NeMo、Guardrails AI）

🔍 测试实战

1. 越狱提示测试

操作：构建50+种越狱提示模板，测试模型拒答率

工具：LLM Attack库、Gandalf游戏

指标：越狱成功率、拒答率、误拒率

2. 提示注入鲁棒性测试

操作：在Agent读取的外部内容中嵌入隐藏指令，测试Agent是否执行

指标：间接注入成功率、Agent执行恶意指令的比例

⚠️ 常见坑点

防御方案单一——仅靠关键词过滤无法防范变体攻击
过于严格的过滤导致误拒率升高——正常用户请求被错误拦截
未测试多模态攻击——图像中嵌入文本指令绕过纯文本过滤

📖 延伸阅读

← ← AI安全概述模型窃取与数据泄露 → →