🕵️ 模型窃取与数据泄露

06-03 | AI模型安全测试模型窃取成员推断数据泄露

📌 一句话概括

模型窃取攻击通过API查询反向还原模型的参数或功能，数据泄露攻击则试图从模型输出中提取训练数据中的敏感信息——两者都关乎银行AI系统的核心知识产权和客户隐私。

💡 攻击类型

① 模型窃取

功能窃取：通过大量API调用复制模型行为（替代品模型）
参数窃取：利用梯度信息或侧信道还原模型权重
知识蒸馏攻击：用教师模型的输出来训练学生模型

② 数据泄露

成员推断：判断某条数据是否在训练集中（如"某人的医疗记录是否被用于训练"）
训练数据提取：通过特定提示让模型"背诵"训练数据中的敏感内容
属性推断：从模型输出推断训练数据中的统计属性

🔍 测试实战

1. 模型提取攻击测试

操作：通过API对模型进行大量查询，训练一个替代模型并比较输出相似度

工具：Steal-ML

2. 训练数据提取测试

操作：使用论文中的提取攻击方法，测试模型是否会输出训练数据中的敏感片段

指标：提取成功率、泄露数据的敏感级别

⚠️ 常见坑点

API未设置速率限制和查询量监控——大规模提取攻击无法被发现
模型输出未过滤训练数据的敏感片段——RAG系统中尤为突出
认为本地部署的模型就没有窃取风险——本地模型可能有侧信道泄露

📖 延伸阅读

← ← 对抗攻击 AI供应链与红队测试 → →