Skip to main content
RAG检索召回率低

RAG检索召回率低

在企业RAG知识问答项目(半导体领域)中,核心痛点是“检索召回率低、生成答案不精准,具体表现为:生僻术语漏检、检索结果与查询意图不符、生成答案包含幻觉、专业术语解释错误;全流程优化指从数据层、索引层、检索层、生成层四个核心环节,逐一排查问题,落地针对性优化措施,实现端到端提升。

一、数据层优化(源头解决数据质量问题)

核心问题:领域文档杂乱、分块不合理、生僻术语未标注,导致Embedding向量无法准确捕捉语义;
优化措施:

  1. 数据清洗:删除过时、错误、无关的文档(如非半导体领域的文档),对文档进行去重、降噪,确
    保数据质量;
  2. 精细化分块:采用“语义分块+滑动窗口分块”,按半导体文档的知识边界(如章节、知识点)分块,
    保留“生僻术语+解释”的完整片段,分块粒度设置为512token;
  3. 数据标注:对文档中的生僻术语、核心知识点进行标注,添加领域标签(如“半导体-晶圆工艺”),
    为后续Embedding微调、检索优化提供基础;
  4. 数据扩充:采集更多半导体领域的专业文档(如技术手册、行业标准),扩充知识库,提升知识覆
    盖率。

Y-aong...About 4 minRAG检索召回