Skip to main content
ORDERLINES

ORDERLINES

个人博客

项目名称
orderlines项目地址
相关链接
orderlines演示网站
文章名称
orderlines相关文档
联系方式
个人联系方式
RAG检索召回率低

RAG检索召回率低

在企业RAG知识问答项目(半导体领域)中,核心痛点是“检索召回率低、生成答案不精准,具体表现为:生僻术语漏检、检索结果与查询意图不符、生成答案包含幻觉、专业术语解释错误;全流程优化指从数据层、索引层、检索层、生成层四个核心环节,逐一排查问题,落地针对性优化措施,实现端到端提升。

一、数据层优化(源头解决数据质量问题)

核心问题:领域文档杂乱、分块不合理、生僻术语未标注,导致Embedding向量无法准确捕捉语义;
优化措施:

  1. 数据清洗:删除过时、错误、无关的文档(如非半导体领域的文档),对文档进行去重、降噪,确
    保数据质量;
  2. 精细化分块:采用“语义分块+滑动窗口分块”,按半导体文档的知识边界(如章节、知识点)分块,
    保留“生僻术语+解释”的完整片段,分块粒度设置为512token;
  3. 数据标注:对文档中的生僻术语、核心知识点进行标注,添加领域标签(如“半导体-晶圆工艺”),
    为后续Embedding微调、检索优化提供基础;
  4. 数据扩充:采集更多半导体领域的专业文档(如技术手册、行业标准),扩充知识库,提升知识覆
    盖率。

Y-aong...About 4 minRAG检索召回
分布式RAG系统

分布式RAG系统

分布式RAG系统,是指将RAG的各个模块(文档处理、Embedding、向量存储、检索、生成)部
署在多个节点,实现负载均衡和高可用,适配大数据量、高并发场景;文档增量更新指新增、修改、删除
文档时,无需重建整个向量索引,仅更新相关向量;实时检索指用户查询后,能在500ms内返回检索结
果;多节点部署的核心问题是向量一致性(各节点的向量数据同步)和检索延迟(节点间通信耗时)。

一、为什么需要分布式

百万级以上文档的RAG系统,单机部署无法满足高并发、大数据量的需求,必须采用分布式部
署;若无法实现增量更新,每次文档变更都需重建索引,耗时极长(数小时甚至数天),影响系统可用
性;若向量不一致,会导致不同节点检索结果不同,影响用户体验;若检索延迟过高,无法满足高并发场
景的响应需求。


Y-aong...About 5 minRAG分布式
RAG系统的幻觉如何解决

RAG系统的幻觉如何解决

RAG系统的幻觉,指大模型生成的答案包含检索结果中没有的信息、与检索结果不符的信息,或虚构专业知识;除了优化检索结果(提升检索精准度),核心优化手段还包括提示词工程、答案校验机****制,以及大模型调用优化、数据质量优化等,其中提示词工程和答案校验机制是最直接、可落地的手段。

即使检索结果精准,大模型也可能因提示词不规范、缺乏约束,或对检索结果的理解偏差,生成幻觉内容;尤其是专业领域RAG(如半导体、电力),幻觉会导致答案错误,影响系统可用性,甚至造成业务损失。因此,需通过提示词工程约束大模型行为,通过答案校验机制过滤幻觉内容,进一步降低幻觉率。


Y-aong...About 3 minRAG幻觉
向量数据库(Faiss、Milvus、Chroma)的索引机制

向量数据库(Faiss、Milvus、Chroma)的索引机制

向量数据库的索引机制,是用于快速检索相似向量的核心技术,本质是通过对向量进行组织、排
序,减少检索时的计算量,提升检索速度;HNSW、IVF_FLAT、IVF_PQ是三种主流索引,Faiss、Milvus、
Chroma均支持这三种索引,但适配场景不同;高并发、大数据量(百万级以上)RAG场景,核心需求是
“检索速度快(响应时间<500ms)、准确率高(召回率>85%)”,需结合索引特性设计策略。

一、为什么很重要

百万级以上文档对应的向量数量庞大(百万级甚至千万级),若采用无索引或不合适的索引,检
索时需遍历所有向量,计算量极大,导致检索延迟过高(>1s),无法满足高并发需求;若仅追求速度,
选用精度较低的索引,会导致检索召回率下降,影响RAG生成效果。因此,需明确三种索引的差异,结合
场景设计策略,平衡速度和准确率。


Y-aong...About 3 minAgent多Agent
多路召回

多路召回

多路召回+重排序”是RAG检索层的核心优化策略,本质是“多渠道获取检索结果,再通过模型筛选最优结果”,解决单一召回通道的局限性;多路召回指通过多个不同的召回通道(向量、关键词、知识图谱),分别获取与用户查询相关的结果;重排序指将多个通道的结果合并,通过模型对结果进行打分排序,筛选出最贴合用户需求的TopN结果,作为大模型的输入。

一、为什么需要多路召回

单一召回通道存在明显缺陷:

  • 向量召回擅长语义匹配,但对专业术语、关键词的精准匹配不足;
  • 关键词召回擅长精准匹配专业术语,但无法捕捉语义相似性;
  • 知识图谱召回擅长实体关联检索,但对非结构化文本的适配性弱。

Y-aong...About 4 minRAG多路召回
多Agent调用调度策略

多Agent调用调度策略

一、多工具调用调度策略设计

  • 意图路由调度: 基于意图理解结果,匹配工具库中的工具类型,过滤无关工具,缩小候选范围(如查
    询任务匹配检索工具,计算任务匹配计算器工具)。
  • **工具的拓扑排序:**分析工具间的依赖关系(如先检索数据、再计算、最后生成),构建有向无环图
    (DAG),按拓扑顺序串行执行依赖工具,无依赖工具并行执行,降低延迟。
  • **工具的优先级:**划分工具优先级:核心工具(必选)优先调用,辅助工具(可选)延后调用;高优先级
    任务抢占资源,保证核心任务执行。
  • **参数的提前校验:**调用前校验工具入参是否完整、合法,提前拦截无效调用,避免资源浪费;缺失参数
    则主动反问用户补充。
  • **动态并发控制:**根据系统负载、工具QPS限制,动态调整并发调用数量,防止超出工具接口限流阈
    值。

Y-aong...About 4 minAgent多Agent
Embedding模型微调

Embedding模型微调

基本步骤

  1. 数据准备:采集半导体领域的生僻术语相关数据,构建样本集:
  • 正样本对:生僻术语与对应的解释(如“晶圆键合工艺-通过高温高压将两片晶圆连接的工艺”)、生僻术语的不同表述(如“晶圆键合-晶圆贴合”);
  • 负样本对:生僻术语与无关术语(如“晶圆键合工艺-芯片封装”)、生僻术语与错误解释;样本量:至少采集1000组正样本对、500组负样本对,确保样本的多样性和有效性。
  1. 数据预处理:对样本进行清洗、标注,将生僻术语和解释进行分块,归一化处理适配模型输入,同
    时标注术语的领域标签。
  2. 微调训练:基于开源Embedding模型(如BGE-large),采用对比损失函数(Contrastive Loss),冻结模型底层基础层(前8层),仅训练顶层适配层(后4层),减少训练成本和过拟合;训练参数:学习率1e-5,批次大小32,训练轮次10-15轮。
  3. 效果验证:通过“语义相似度计算、RAG检索召回率”验证,若生僻术语的检索召回率低于80%,则增加样本量、调整训练参数,重新微调。

Y-aong...About 10 minAgentRAG,Embedding微调
LlamaIndex 中最具借鉴价值的五点

LlamaIndex 中最具借鉴价值的五点

这是AI帮我总结出来LlamaIndex 中最具借鉴价值的五点

✅ 亮点 1:分层索引(Hierarchical Indexing) + 父子文档检索(Parent-Child Chunking)

🔍 LlamaIndex 做法:

  • 将文档切分为 小块(child nodes) 用于精确检索;
  • 同时保留 大块(parent nodes,如整段/整页) 作为上下文容器;
  • 检索时先找最相关的 child,再返回其 parent 作为上下文,避免信息碎片化。

Y-aong...About 3 minAgentRAG
Agent的五种设计模式

Agent的五种设计模式

前言:当 AI 需要“三思而后行”

现在的 AI 已经不仅仅是聊天机器人了。当我们让 AI 去订机票、分析财报或者修 Bug 时,我们其实在要求它像人一样工作。

人类解决问题通常不是靠“灵光一现”(虽然有时候是),而是靠逻辑推演、工具使用、自我反省和分工合作。这就是 Agentic Design Patterns(智能体设计模式)的由来。

在 LangChain 生态中,构建 Agent 早已不是简单的 LLMChain,而是进入了 LangGraph 的时代。今天我们用最通俗的方式,聊聊构建稳健 AI Agent 的 5 种核心设计模式。


Y-aong...About 5 minAgentAgent
多轮对话调优

多轮对话调优

仅靠 LangChain 提供的“开箱即用”组件构建多轮 RAG 对话系统,往往在真实场景中效果不佳

原因包括:

  • 对话历史冗余或噪声累积:越聊越长,LLM 注意力被分散;
  • 检索 query 不准确:后续问题依赖上下文(如“他指的是谁?”),但原始 query 无法独立检索;
  • 上下文窗口限制:LLM 输入长度有限,无法塞入全部历史 + 检索结果;
  • 幻觉增强:错误的历史理解会误导后续回答;
  • LangChain 默认链式结构较“线性”,缺乏对多轮语义状态的显式建模。

Y-aong...About 3 minRAGRAG,多轮对话
2
3
4
5
...
16

This is a blog home page demo.

To use this layout, you should set both layout: BlogHome and home: true in the page front matter.

For related configuration docs, please see blog homepageopen in new window.