⚔️ 对抗攻击与防御

06-02 | AI模型安全测试对抗攻击越狱提示注入

📌 一句话概括

对抗攻击是通过精心构造的输入让AI模型产生预期之外的输出——对LLM来说就是"越狱提示"让模型说出不该说的话,对视觉模型就是"对抗贴纸"让模型认错物体。

💡 常见对抗攻击类型

① 针对LLM的攻击

② 防御策略

🔍 测试实战

1. 越狱提示测试

操作:构建50+种越狱提示模板,测试模型拒答率

工具LLM Attack库Gandalf游戏

指标:越狱成功率、拒答率、误拒率

2. 提示注入鲁棒性测试

操作:在Agent读取的外部内容中嵌入隐藏指令,测试Agent是否执行

指标:间接注入成功率、Agent执行恶意指令的比例

⚠️ 常见坑点

  1. 防御方案单一——仅靠关键词过滤无法防范变体攻击
  2. 过于严格的过滤导致误拒率升高——正常用户请求被错误拦截
  3. 未测试多模态攻击——图像中嵌入文本指令绕过纯文本过滤

📖 延伸阅读