▶ 📖 总览

知识库首页

▶ 🏗️ 架构设计

章节概览

▶ 🔧 工具系统

章节概览

▶ 🧠 记忆与推理

章节概览

▶ 🔒 安全与对齐

▶ 🔄 多Agent协作

章节概览

▶ 🚀 生产化部署

章节概览

▶ 🧪 框架与工具

章节概览

▶ 📘 实战案例

章节概览

▶ 🔭 前沿趋势

章节概览

🔒 安全与对齐

🔒

安全与对齐 —— Agent 的生命线

Agent 具备自主决策和工具调用能力，安全风险远超普通 LLM 应用。本章覆盖 Prompt 注入、权限控制、沙箱隔离、输出验证、对齐价值观五大安全支柱。

🗺️ Agent 安全全景图

🛡️ Agent 安全体系

💉

Prompt注入防御

输入安全

🔑

权限控制

访问安全

📦

沙箱隔离

执行安全

✅

输出验证

输出安全

🧭

价值对齐

行为安全

⚠️ 核心风险项

💉

Prompt 注入

攻击者通过精心构造的输入覆盖或绕过 Agent 的 system prompt，控制行为、窃取数据

🔓

权限越界

Agent 调用超出授权范围的工具或数据，导致数据泄露或系统破坏

💣

代码执行风险

Agent 生成的代码在宿主环境中直接执行，可能导致任意代码执行

🕵️

信息泄露

Agent 在处理数据时无意中泄露 PII、API key、内部配置等敏感信息

🔄

间接注入

攻击者通过外部数据源（网页、邮件、文档）将恶意指令注入 Agent 上下文

🎭

行为偏离

Agent 行为偏离预期目标，产生有害、偏见或不符合伦理的输出

📊 安全风险矩阵

攻击面	风险等级	利用难度	影响范围	对应子页
系统提示词泄露	高危	低	系统行为控制	Prompt注入
角色越狱	高危	低	内容安全	Prompt注入
工具权限滥用	高危	中	系统/数据安全	权限控制
代码注入执行	高危	中	主机安全	沙箱隔离
间接Prompt注入	中危	高	上下文操控	Prompt注入
输出敏感信息	中危	中	数据合规	输出验证
数据投毒	中危	高	记忆/RAG污染	沙箱隔离
价值观偏离	中危	中	合规/声誉	对齐

📂 子页导航

01 · Prompt 注入攻击与防御

直接/间接注入分类、OWASP LLM Top 10、多层防御策略对比

02 · Agent 权限控制模型

最小权限原则、工具/数据/系统三级权限、审批工作流

03 · 沙箱隔离技术

代码执行沙箱、Docker容器隔离、WebAssembly、数据访问隔离

04 · 输出验证与安全过滤

PII防护、合规检查、格式验证、敏感操作二次确认

05 · Agent 对齐与价值观

行为边界、拒绝策略、价值观嵌入、对齐验证方法

💡 学习建议 建议从 Prompt 注入（01）开始理解核心攻击面，然后依次学习权限控制（02）、沙箱隔离（03）、输出验证（04），最后建立完整的对齐价值观体系（05）。安全是纵深防御，每一层都不可或缺。

AI智能体开发知识库 · 安全与对齐 · Phase 2