AI模型安全测试关注的是大语言模型、计算机视觉等AI系统特有的安全风险——与传统软件安全不同,攻击者不是找代码漏洞,而是利用模型的训练数据、推理过程和输出结果的固有弱点。
| 维度 | 风险 | 测试方法 |
|---|---|---|
| 数据安全 | 训练数据投毒、成员推断、数据泄露 | 数据审计、差分隐私测试 |
| 模型安全 | 对抗攻击、模型窃取、后门植入 | 对抗样本测试、模型提取 |
| 输出安全 | 提示注入、幻觉、有害内容生成 | 红队测试、内容安全检测 |
| 供应链安全 | 预训练模型后门、第三方框架漏洞 | 模型溯源、框架漏洞扫描 |
操作:构建覆盖四维度的测试用例矩阵,评估模型的整体安全态势
操作:测试模型在边界情况下的行为(拒绝服务、越狱提示、多语言混淆)