💬 客服Agent实战
📌 案例定位
本案例聚焦企业级智能客服系统,结合 RAG 知识检索与 Agent 工具调用能力,实现从 FAQ 自动应答到复杂业务办理(退款、订单查询、工单创建)的全链路覆盖。
🎯 需求分析
传统客服系统面临三大核心痛点:
| 痛点 | 传统方案 | Agent 方案优势 |
|---|---|---|
| 知识覆盖不足 | 关键词匹配 FAQ,命中率低 | 语义检索 + RAG,准确理解用户意图 |
| 无法处理复杂业务 | 转人工,排队等待 | Agent 自主调用业务 API(查订单、退款) |
| 多轮对话能力弱 | 一问一答,上下文丢失 | 长短期记忆管理,槽位填充式对话 |
核心需求拆解:
- 意图识别:FAQ 咨询 / 业务办理 / 投诉升级 / 闲聊
- 知识检索:从产品手册、政策文档、历史工单中检索答案
- 业务执行:订单查询、退款处理、物流跟踪、工单创建
- 人机协作:复杂问题自动生成摘要后转接人工
- 效果评估:解决率、响应时间、用户满意度追踪
🏗️ 架构设计(RAG + Agent 混合)
客服 Agent 采用 RAG + Agent 混合架构:RAG 负责知识密集型问答,Agent 负责工具调用和业务流程编排。两者通过路由层统一调度。
📐 架构总览
👤 用户输入
↓
🧭 意图路由层
分类 → FAQ / 业务 / 投诉
分类 → FAQ / 业务 / 投诉
↙ ↘
📚 RAG 引擎
向量检索 + 重排序
向量检索 + 重排序
🛠️ Agent 执行器
工具调用 + 流程编排
工具调用 + 流程编排
↘ ↙
💬 响应生成 + 人机协作
路由策略:
- FAQ 类(占比 ~75%):直接走 RAG 引擎,检索知识库后生成回答,延迟 < 500ms
- 业务类(占比 ~20%):走 Agent 执行器,调用订单/退款/物流 API,支持多步骤编排
- 投诉/升级类(占比 ~5%):Agent 收集关键信息 → 生成结构化摘要 → 自动创建工单 → 转人工
🛠️ 工具设计
Agent 执行器依赖以下工具集,通过 Function Calling 统一调用:
| 工具名称 | 功能 | 输入参数 | 输出 |
|---|---|---|---|
search_knowledge_base |
语义检索知识库 | query, top_k=5, filters | 相关文档片段 + 置信度 |
query_order |
查询用户订单 | user_id, order_id (optional) | 订单状态、物流、金额 |
process_refund |
发起退款流程 | order_id, reason, amount | 退款单号、预计到账时间 |
track_shipment |
物流跟踪 | tracking_number | 当前位置、预计送达 |
create_ticket |
创建人工工单 | user_id, summary, priority | 工单ID、预计处理时间 |
escalate_to_human |
转接人工客服 | user_id, conversation_summary | 排队号、等待时间 |
⚠️ 安全注意事项
业务操作类工具(退款、订单修改)必须加入二次确认机制:Agent 生成操作预览 → 用户确认 → 执行。敏感操作需记录完整审计日志。
📊 评估指标
客服 Agent 的评估体系分为自动评估和人工评估两个维度:
🎯 意图识别准确率
95%+
FAQ/业务/投诉分类 F1-Score
✅ 问题解决率
85%+
无需转人工的会话占比
📚 知识召回率
92%+
RAG 检索 Top-5 命中率
⚡ 平均响应时间
< 1.5s
端到端延迟(含 API 调用)
🔧 工具调用成功率
98%+
API 调用成功 / 总调用次数
😊 用户满意度
4.5/5
会话结束后用户评分
🔑 关键实现细节
| 实现要点 | 技术方案 | 注意事项 |
|---|---|---|
| 知识库构建 | 文档分块(Chunk 512 tokens,重叠 50)+ Embedding(text-embedding-3-large)+ Milvus 向量库 | 分块策略需根据文档类型调整,FAQ 类用短 chunk,手册类用长 chunk |
| 多轮对话管理 | 滑动窗口 + 摘要压缩,保留最近 10 轮完整对话,历史摘要注入 system prompt | Token 预算控制在 8K 以内,防止上下文溢出 |
| 工具调用容错 | 超时 3s + 重试 2 次 + 降级策略(返回缓存结果或提示重试) | API 不可用时避免 Agent 陷入死循环 |
| 幻觉检测 | 回答与检索文档的 NLI(自然语言推理)校验,低置信度回答追加免责声明 | 业务敏感场景(退款金额)禁止幻觉,直接拒绝回答 |
| 冷启动策略 | 种子 FAQ 500+ 条 + 历史工单挖掘 + A/B 测试持续优化 | 初期人工审核率建议 30%,逐步降低至 5% |
⚠️ 生产环境关键决策
- 知识库更新频率:核心文档每日增量同步,非核心文档每周全量
- 模型选型建议:FAQ 用轻量模型(GPT-4o-mini),复杂业务用强模型(Claude 3.5 Sonnet)
- 灰度发布:新 Prompt / 新工具先 5% 流量验证,核心指标无劣化后全量