多轮对话调优
仅靠 LangChain 提供的“开箱即用”组件构建多轮 RAG 对话系统,往往在真实场景中效果不佳。
原因包括:
- 对话历史冗余或噪声累积:越聊越长,LLM 注意力被分散;
- 检索 query 不准确:后续问题依赖上下文(如“他指的是谁?”),但原始 query 无法独立检索;
- 上下文窗口限制:LLM 输入长度有限,无法塞入全部历史 + 检索结果;
- 幻觉增强:错误的历史理解会误导后续回答;
- LangChain 默认链式结构较“线性”,缺乏对多轮语义状态的显式建模。
...About 3 min