🔒 安全与对齐
🔒
安全与对齐 —— Agent 的生命线
Agent 具备自主决策和工具调用能力,安全风险远超普通 LLM 应用。本章覆盖 Prompt 注入、权限控制、沙箱隔离、输出验证、对齐价值观五大安全支柱。
🗺️ Agent 安全全景图
🛡️ Agent 安全体系
💉
Prompt注入防御
输入安全
🔑
权限控制
访问安全
📦
沙箱隔离
执行安全
✅
输出验证
输出安全
🧭
价值对齐
行为安全
⚠️ 核心风险项
Prompt 注入
攻击者通过精心构造的输入覆盖或绕过 Agent 的 system prompt,控制行为、窃取数据
权限越界
Agent 调用超出授权范围的工具或数据,导致数据泄露或系统破坏
代码执行风险
Agent 生成的代码在宿主环境中直接执行,可能导致任意代码执行
信息泄露
Agent 在处理数据时无意中泄露 PII、API key、内部配置等敏感信息
间接注入
攻击者通过外部数据源(网页、邮件、文档)将恶意指令注入 Agent 上下文
行为偏离
Agent 行为偏离预期目标,产生有害、偏见或不符合伦理的输出
📊 安全风险矩阵
| 攻击面 | 风险等级 | 利用难度 | 影响范围 | 对应子页 |
|---|---|---|---|---|
| 系统提示词泄露 | 高危 | 低 | 系统行为控制 | Prompt注入 |
| 角色越狱 | 高危 | 低 | 内容安全 | Prompt注入 |
| 工具权限滥用 | 高危 | 中 | 系统/数据安全 | 权限控制 |
| 代码注入执行 | 高危 | 中 | 主机安全 | 沙箱隔离 |
| 间接Prompt注入 | 中危 | 高 | 上下文操控 | Prompt注入 |
| 输出敏感信息 | 中危 | 中 | 数据合规 | 输出验证 |
| 数据投毒 | 中危 | 高 | 记忆/RAG污染 | 沙箱隔离 |
| 价值观偏离 | 中危 | 中 | 合规/声誉 | 对齐 |
📂 子页导航
💡 学习建议
建议从 Prompt 注入(01)开始理解核心攻击面,然后依次学习权限控制(02)、沙箱隔离(03)、输出验证(04),最后建立完整的对齐价值观体系(05)。安全是纵深防御,每一层都不可或缺。