🕵️ 模型窃取与数据泄露

06-03 | AI模型安全测试模型窃取成员推断数据泄露

📌 一句话概括

模型窃取攻击通过API查询反向还原模型的参数或功能,数据泄露攻击则试图从模型输出中提取训练数据中的敏感信息——两者都关乎银行AI系统的核心知识产权和客户隐私。

💡 攻击类型

① 模型窃取

② 数据泄露

🔍 测试实战

1. 模型提取攻击测试

操作:通过API对模型进行大量查询,训练一个替代模型并比较输出相似度

工具Steal-ML

2. 训练数据提取测试

操作:使用论文中的提取攻击方法,测试模型是否会输出训练数据中的敏感片段

指标:提取成功率、泄露数据的敏感级别

⚠️ 常见坑点

  1. API未设置速率限制和查询量监控——大规模提取攻击无法被发现
  2. 模型输出未过滤训练数据的敏感片段——RAG系统中尤为突出
  3. 认为本地部署的模型就没有窃取风险——本地模型可能有侧信道泄露

📖 延伸阅读