💰 成本控制与优化

🎯 Agent 成本的核心挑战

Agent 的成本模型与传统 API 服务有本质区别：每次用户请求可能触发多次 LLM 调用，每次调用消耗的 Token 数量取决于上下文长度和推理步骤数。如果不加控制，一个看似简单的用户问题可能消耗数十万 Token，单次请求成本高达数美元。

理解 Token 消耗的构成是成本优化的第一步。Agent 的 Token 消耗通常分为以下几个部分：

Token 来源	说明	典型占比	优化空间
System Prompt	Agent 的系统指令和角色定义	5%~15%	中 · 精简指令
对话历史	多轮对话的累积上下文	20%~60%	高 · 上下文剪枝/摘要
工具定义	function calling 的工具 Schema	5%~10%	中 · 按需加载工具
检索结果	RAG 检索到的知识片段	10%~30%	高 · 优化检索精度
推理步骤输出	LLM 的思维链和工具调用决策	15%~35%	中 · 限制思考步骤

模型	输入价格 ($/M tokens)	输出价格 ($/M tokens)	性价比评级
GPT-4o	$2.50	$10.00	⭐⭐⭐
GPT-4o-mini	$0.15	$0.60	⭐⭐⭐⭐⭐
Claude 3.5 Sonnet	$3.00	$15.00	⭐⭐⭐
Claude 3 Haiku	$0.25	$1.25	⭐⭐⭐⭐
DeepSeek-V3	$0.27	$1.10	⭐⭐⭐⭐⭐
Gemini 2.0 Flash	$0.10	$0.40	⭐⭐⭐⭐⭐

不是所有任务都需要最强的模型。智能路由根据任务复杂度动态选择模型，在保证质量的前提下大幅降低成本。

📥 用户请求

→

🧠 复杂度评估器

→

简单任务
问候/FAQ/简单查询
→ GPT-4o-mini / Haiku

中等任务
信息整合/摘要/翻译
→ DeepSeek-V3 / Gemini

复杂任务
多步推理/代码生成/规划
→ GPT-4o / Claude Sonnet

缓存是降低 LLM 调用成本最直接有效的手段。Agent 的缓存可以分为三个层次：

对于重复使用的 System Prompt 和工具定义，利用 LLM 服务商的 Prompt Caching 机制，避免每次请求都全额计费。

对于确定性或准确定性的请求（相同输入大概率返回相同结果），通过语义缓存或精确匹配缓存直接返回结果，完全跳过 LLM 调用。

工具调用（如搜索、数据库查询）的结果可以在一定时间内缓存，避免重复调用。特别是对于查询类工具，合理设置 TTL 可以大幅减少外部 API 调用次数。

对于非实时场景（如批量评估、离线分析、数据预处理），使用批处理 API 可以显著降低成本：

批处理方式	成本节省	延迟	适用场景
OpenAI Batch API	50%	最长 24 小时	离线评估、数据集处理
Anthropic Message Batches	50%	最长 24 小时	批量分析、内容审核
请求合并	10%~30%	实时（秒级）	多用户并发场景
并行工具调用	时间节约	减少等待	多工具并发执行

优化策略	成本节省	实现复杂度	质量影响	适用阶段	优先级
Prompt 缓存	20%~40%	低	无影响	立即可用	🔥 最高
结果缓存	30%~70%	中	轻微（需调优）	高频场景	🔥 高
模型路由	30%~60%	中	可能有（简单任务）	流量增长后	🔥 高
上下文剪枝	15%~40%	中	轻微	长对话场景	🔥 高
工具缓存	10%~30%	低	时效性损失	查询类工具	中
批处理	50%	低	无影响（离线）	离线场景	中
限制步骤数	20%~50%	低	可能截断任务	所有场景	中

💡 优化路线图

AI智能体开发知识库 · 生产化部署 · 成本控制与优化