对抗攻击是通过精心构造的输入让AI模型产生预期之外的输出——对LLM来说就是"越狱提示"让模型说出不该说的话,对视觉模型就是"对抗贴纸"让模型认错物体。
操作:构建50+种越狱提示模板,测试模型拒答率
工具:LLM Attack库、Gandalf游戏
指标:越狱成功率、拒答率、误拒率
操作:在Agent读取的外部内容中嵌入隐藏指令,测试Agent是否执行
指标:间接注入成功率、Agent执行恶意指令的比例