💭 推理增强

推理增强技术让 Agent 从"直觉式回答"进化为"系统性思考"。通过引入结构化的推理框架，Agent 可以解决更复杂、需要多步逻辑推导的问题。

🧩 主流推理方法

🔗

Chain-of-Thought（CoT）

让模型在给出最终答案前，先生成一系列的中间推理步骤。通过"让我们一步步思考"的引导，将复杂问题分解为可管理的子步骤串行推理。

变体：Zero-shot CoT、Few-shot CoT、Auto-CoT（自动生成推理链示例）

🌳

Tree-of-Thought（ToT）

将推理建模为树状搜索。在每个推理步骤，模型生成多个候选思路，评估每个思路的前景，选择最有希望的路径继续探索。支持 BFS/DFS 搜索策略。

关键能力：回溯、剪枝、多路径探索

🗳️

Self-Consistency

对同一问题多次采样不同的推理路径，然后通过多数投票选择最一致的答案。利用"多条路径通向同一答案更可能是正确的"这一直觉。

优势：弥补单次 CoT 推理的随机性，显著提升数学和逻辑任务的准确率

🔄

ReAct

Reasoning + Acting 的交替循环。模型交替执行：思考（分析当前状态→推理下一步）→ 行动（调用工具/检索信息）→ 观察（分析工具返回结果）→ 调整策略。

优势：将推理与外部工具调用深度结合，是 Agent 推理的基石

🪞

Reflexion

在 ReAct 基础上增加自我反思机制。Agent 完成任务后，评估执行过程，生成反思笔记（失败原因、改进建议），将反思存入长期记忆供未来任务参考。

关键机制：试错 → 反思 → 记忆 → 改进

📐

Graph-of-Thought（GoT）

将推理建模为有向图（而非链或树），支持思路的合并、分支、聚合。适合需要综合多方信息得出结论的复杂推理任务。

优势：更灵活地组合和复用中间推理结果

📊 推理方法对比

方法	推理结构	搜索策略	Token 开销	适用场景	成熟度
CoT	线性链	贪心（单路径）	低 (1x~3x)	数学推理、逻辑推断、代码调试	成熟
ToT	树	BFS/DFS + 剪枝	高 (5x~20x)	创意写作、策略规划、复杂决策	实验
Self-Consistency	多链采样	多数投票	中 (3x~10x)	数学题、代码生成、需要高准确性任务	成熟
ReAct	交替循环	贪心（逐步迭代）	中 (2x~5x)	工具调用、信息检索、Agent 任务执行	成熟
Reflexion	循环 + 记忆	贪心 + 反思回溯	高 (3x~8x)	需要从错误中学习的持续性任务	实验
GoT	有向图	图遍历 + 合并	极高 (5x~30x)	多源信息综合、复杂分析报告	早期研究

⚖️ 推理成本与质量平衡

更深入的推理通常意味着更高的 Token 消耗和延迟。在实际应用中，需要根据任务特征在推理深度和运行成本之间找到最优平衡点。

💰

直接回答

Token: 基准 1x
质量: ★★☆☆☆
适合简单查询

🔗

CoT

Token: 1x~3x
质量: ★★★☆☆
适合推理问题

🔄

ReAct + CoT

Token: 2x~5x
质量: ★★★★☆
适合 Agent 任务

🌳

ToT / Self-Consistency

Token: 5x~20x
质量: ★★★★★
适合高精度需求

平衡策略

分层推理：简单任务用直接回答，中等任务用 CoT，复杂任务才启用 ToT/Self-Consistency
自适应深度：根据任务置信度动态调整推理深度——低置信度时加深推理
推理缓存：缓存常见问题的推理链，避免重复推理
模型分层：简单任务用小模型 + CoT，复杂任务切换大模型 + 高级推理框架
截止策略：设置最大推理步数和 Token 预算，防止无限推理

⚠️ 推理增强的陷阱 推理增强并非万能。过度的推理链可能导致：（1）过度自信——看似严密的推理链掩盖了事实错误；（2）推理漂移——多步推理中偏离原始问题；（3）成本失控——Tree-of-Thought 等方法的 Token 消耗可能数十倍于直接回答。务必在关键任务上进行效果评估。

AI智能体开发知识库 · 记忆与推理 · 推理增强