🔒 安全与对齐

🔒

安全与对齐 —— Agent 的生命线

Agent 具备自主决策和工具调用能力,安全风险远超普通 LLM 应用。本章覆盖 Prompt 注入、权限控制、沙箱隔离、输出验证、对齐价值观五大安全支柱。

🗺️ Agent 安全全景图

🛡️ Agent 安全体系
💉
Prompt注入防御
输入安全
🔑
权限控制
访问安全
📦
沙箱隔离
执行安全
输出验证
输出安全
🧭
价值对齐
行为安全

⚠️ 核心风险项

💉

Prompt 注入

攻击者通过精心构造的输入覆盖或绕过 Agent 的 system prompt,控制行为、窃取数据

🔓

权限越界

Agent 调用超出授权范围的工具或数据,导致数据泄露或系统破坏

💣

代码执行风险

Agent 生成的代码在宿主环境中直接执行,可能导致任意代码执行

🕵️

信息泄露

Agent 在处理数据时无意中泄露 PII、API key、内部配置等敏感信息

🔄

间接注入

攻击者通过外部数据源(网页、邮件、文档)将恶意指令注入 Agent 上下文

🎭

行为偏离

Agent 行为偏离预期目标,产生有害、偏见或不符合伦理的输出

📊 安全风险矩阵

攻击面风险等级利用难度影响范围对应子页
系统提示词泄露 高危 系统行为控制 Prompt注入
角色越狱 高危 内容安全 Prompt注入
工具权限滥用 高危 系统/数据安全 权限控制
代码注入执行 高危 主机安全 沙箱隔离
间接Prompt注入 中危 上下文操控 Prompt注入
输出敏感信息 中危 数据合规 输出验证
数据投毒 中危 记忆/RAG污染 沙箱隔离
价值观偏离 中危 合规/声誉 对齐

📂 子页导航

💡 学习建议 建议从 Prompt 注入(01)开始理解核心攻击面,然后依次学习权限控制(02)、沙箱隔离(03)、输出验证(04),最后建立完整的对齐价值观体系(05)。安全是纵深防御,每一层都不可或缺。