RAG检索召回率低
在企业RAG知识问答项目(半导体领域)中,核心痛点是“检索召回率低、生成答案不精准,具体表现为:生僻术语漏检、检索结果与查询意图不符、生成答案包含幻觉、专业术语解释错误;全流程优化指从数据层、索引层、检索层、生成层四个核心环节,逐一排查问题,落地针对性优化措施,实现端到端提升。
一、数据层优化(源头解决数据质量问题)
核心问题:领域文档杂乱、分块不合理、生僻术语未标注,导致Embedding向量无法准确捕捉语义;
优化措施:
- 数据清洗:删除过时、错误、无关的文档(如非半导体领域的文档),对文档进行去重、降噪,确
保数据质量; - 精细化分块:采用“语义分块+滑动窗口分块”,按半导体文档的知识边界(如章节、知识点)分块,
保留“生僻术语+解释”的完整片段,分块粒度设置为512token; - 数据标注:对文档中的生僻术语、核心知识点进行标注,添加领域标签(如“半导体-晶圆工艺”),
为后续Embedding微调、检索优化提供基础; - 数据扩充:采集更多半导体领域的专业文档(如技术手册、行业标准),扩充知识库,提升知识覆
盖率。
...About 4 min