Skip to main content

RAG检索召回率低

Y-aong...About 4 minRAG检索召回

RAG检索召回率低

在企业RAG知识问答项目(半导体领域)中,核心痛点是“检索召回率低、生成答案不精准,具体表现为:生僻术语漏检、检索结果与查询意图不符、生成答案包含幻觉、专业术语解释错误;全流程优化指从数据层、索引层、检索层、生成层四个核心环节,逐一排查问题,落地针对性优化措施,实现端到端提升。

一、数据层优化(源头解决数据质量问题)

核心问题:领域文档杂乱、分块不合理、生僻术语未标注,导致Embedding向量无法准确捕捉语义;
优化措施:

  1. 数据清洗:删除过时、错误、无关的文档(如非半导体领域的文档),对文档进行去重、降噪,确
    保数据质量;
  2. 精细化分块:采用“语义分块+滑动窗口分块”,按半导体文档的知识边界(如章节、知识点)分块,
    保留“生僻术语+解释”的完整片段,分块粒度设置为512token;
  3. 数据标注:对文档中的生僻术语、核心知识点进行标注,添加领域标签(如“半导体-晶圆工艺”),
    为后续Embedding微调、检索优化提供基础;
  4. 数据扩充:采集更多半导体领域的专业文档(如技术手册、行业标准),扩充知识库,提升知识覆
    盖率。

二、索引层优化(提升向量索引的精准度和效率)

核心问题:通用Embedding模型对领域语义捕捉不足,向量数据库索引策略不合理,导致检索时无法精准
匹配相关向量;
优化措施:

  1. Embedding微调:基于BGE-large模型,用半导体领域的生僻术语样本(1500组正样本、800组负样本)做对比学习微调,提升领域语义捕捉精度;
  2. 向量数据库优化:选用Milvus分布式向量数据库,采用“IVF_PQ+HNSW混合索引”,簇数量设置为1000,量化维度设置为128维,平衡检索速度和精度;
  3. 向量归一化:对生成的向量进行归一化处理,确保向量的相似度计算更精准;
  4. 索引定期优化:每周重建一次增量索引,每月重建一次全量索引,避免索引效率下降。

三、检索层优化(提升检索结果的精准度和召回率)

核心问题:单一检索通道漏检严重,检索结果未经过有效过滤和排序,导致无关结果过多;
优化措施:

  1. 多路召回:搭建“向量召回+关键词召回+知识图谱召回”三个通道,向量召回占比60%、关键词召回占比25%、知识图谱召回占比15%,互补不足;
  2. 重排序优化:用微调后的CrossEncoder模型做重排序,引入“语义相似度、意图匹配度、实体关联度”三个特征,综合打分排序,取Top8结果;
  3. 检索参数优化:调整向量检索的相似度阈值(从0.6提升至0.7),过滤低相似度结果;调整关键词召回的匹配规则,支持模糊匹配和精确匹配结合;
  4. 意图识别前置:在检索前,用微调的意图识别模型提取用户查询意图,过滤与意图不符的检索结果。

四、生成层优化(降低幻觉率,提升生成准确率)

核心问题:提示词不规范,大模型缺乏约束,答案校验机制缺失,导致生成答案不精准、存在幻觉;
优化措施:

  1. 提示词工程:制定半导体领域专属提示词模板,明确要求大模型“仅基于检索结果生成答案,专业术语规范,不虚构信息”;
  2. 答案校验机制:搭建“语义校验+知识校验+人工介入”三重校验,语义相似度低于75%则重新生成,知识校验不通过则拒绝输出,模糊结果触发人工审核;
  3. 大模型选型与微调:选用微调后的Llama 2-70B模型作为生成器,提升领域适配性,减少幻觉;
  4. 格式优化:明确生成答案的结构(核心结论+详细说明+参考检索结果),提升可读性和专业性。
Comments
  • Latest
  • Oldest
  • Hottest
Powered by Waline v2.15.8