博客 | ORDERLINES

项目名称

orderlines项目地址

一、数据层优化（源头解决数据质量问题）

核心问题：领域文档杂乱、分块不合理、生僻术语未标注，导致Embedding向量无法准确捕捉语义；
优化措施：

数据清洗：删除过时、错误、无关的文档（如非半导体领域的文档），对文档进行去重、降噪，确
保数据质量；
精细化分块：采用“语义分块+滑动窗口分块”，按半导体文档的知识边界（如章节、知识点）分块，
保留“生僻术语+解释”的完整片段，分块粒度设置为512token；
数据标注：对文档中的生僻术语、核心知识点进行标注，添加领域标签（如“半导体-晶圆工艺”），
为后续Embedding微调、检索优化提供基础；
数据扩充：采集更多半导体领域的专业文档（如技术手册、行业标准），扩充知识库，提升知识覆
盖率。

Y-aong...About 4 min

分布式RAG系统，是指将RAG的各个模块（文档处理、Embedding、向量存储、检索、生成）部
署在多个节点，实现负载均衡和高可用，适配大数据量、高并发场景；文档增量更新指新增、修改、删除
文档时，无需重建整个向量索引，仅更新相关向量；实时检索指用户查询后，能在500ms内返回检索结
果；多节点部署的核心问题是向量一致性（各节点的向量数据同步）和检索延迟（节点间通信耗时）。

一、为什么需要分布式

百万级以上文档的RAG系统，单机部署无法满足高并发、大数据量的需求，必须采用分布式部
署；若无法实现增量更新，每次文档变更都需重建索引，耗时极长（数小时甚至数天），影响系统可用
性；若向量不一致，会导致不同节点检索结果不同，影响用户体验；若检索延迟过高，无法满足高并发场
景的响应需求。

Y-aong...About 5 min

RAG系统的幻觉如何解决

RAG系统的幻觉，指大模型生成的答案包含检索结果中没有的信息、与检索结果不符的信息，或虚构专业知识；除了优化检索结果（提升检索精准度），核心优化手段还包括提示词工程、答案校验机****制，以及大模型调用优化、数据质量优化等，其中提示词工程和答案校验机制是最直接、可落地的手段。

即使检索结果精准，大模型也可能因提示词不规范、缺乏约束，或对检索结果的理解偏差，生成幻觉内容；尤其是专业领域RAG（如半导体、电力），幻觉会导致答案错误，影响系统可用性，甚至造成业务损失。因此，需通过提示词工程约束大模型行为，通过答案校验机制过滤幻觉内容，进一步降低幻觉率。

Y-aong...About 3 min

向量数据库（Faiss、Milvus、Chroma）的索引机制

向量数据库的索引机制，是用于快速检索相似向量的核心技术，本质是通过对向量进行组织、排
序，减少检索时的计算量，提升检索速度；HNSW、IVF_FLAT、IVF_PQ是三种主流索引，Faiss、Milvus、
Chroma均支持这三种索引，但适配场景不同；高并发、大数据量（百万级以上）RAG场景，核心需求是
“检索速度快（响应时间＜500ms）、准确率高（召回率＞85%）”，需结合索引特性设计策略。

一、为什么很重要

百万级以上文档对应的向量数量庞大（百万级甚至千万级），若采用无索引或不合适的索引，检
索时需遍历所有向量，计算量极大，导致检索延迟过高（＞1s），无法满足高并发需求；若仅追求速度，
选用精度较低的索引，会导致检索召回率下降，影响RAG生成效果。因此，需明确三种索引的差异，结合
场景设计策略，平衡速度和准确率。

Y-aong...About 3 min

多路召回

“多路召回+重排序”是RAG检索层的核心优化策略，本质是“多渠道获取检索结果，再通过模型筛选最优结果”，解决单一召回通道的局限性；多路召回指通过多个不同的召回通道（向量、关键词、知识图谱），分别获取与用户查询相关的结果；重排序指将多个通道的结果合并，通过模型对结果进行打分排序，筛选出最贴合用户需求的TopN结果，作为大模型的输入。

一、为什么需要多路召回

单一召回通道存在明显缺陷：

向量召回擅长语义匹配，但对专业术语、关键词的精准匹配不足；
关键词召回擅长精准匹配专业术语，但无法捕捉语义相似性；
知识图谱召回擅长实体关联检索，但对非结构化文本的适配性弱。

Y-aong...About 4 min

多Agent调用调度策略

一、多工具调用调度策略设计

意图路由调度: 基于意图理解结果，匹配工具库中的工具类型，过滤无关工具，缩小候选范围（如查
询任务匹配检索工具，计算任务匹配计算器工具）。
**工具的拓扑排序：**分析工具间的依赖关系（如先检索数据、再计算、最后生成），构建有向无环图
（DAG），按拓扑顺序串行执行依赖工具，无依赖工具并行执行，降低延迟。
**工具的优先级：**划分工具优先级：核心工具（必选）优先调用，辅助工具（可选）延后调用；高优先级
任务抢占资源，保证核心任务执行。
**参数的提前校验：**调用前校验工具入参是否完整、合法，提前拦截无效调用，避免资源浪费；缺失参数
则主动反问用户补充。
**动态并发控制：**根据系统负载、工具QPS限制，动态调整并发调用数量，防止超出工具接口限流阈
值。

Y-aong...About 4 min

Embedding模型微调

基本步骤

数据准备：采集半导体领域的生僻术语相关数据，构建样本集：

正样本对：生僻术语与对应的解释（如“晶圆键合工艺-通过高温高压将两片晶圆连接的工艺”）、生僻术语的不同表述（如“晶圆键合-晶圆贴合”）；
负样本对：生僻术语与无关术语（如“晶圆键合工艺-芯片封装”）、生僻术语与错误解释；样本量：至少采集1000组正样本对、500组负样本对，确保样本的多样性和有效性。

数据预处理：对样本进行清洗、标注，将生僻术语和解释进行分块，归一化处理适配模型输入，同
时标注术语的领域标签。
微调训练：基于开源Embedding模型（如BGE-large），采用对比损失函数（Contrastive Loss），冻结模型底层基础层（前8层），仅训练顶层适配层（后4层），减少训练成本和过拟合；训练参数：学习率1e-5，批次大小32，训练轮次10-15轮。
效果验证：通过“语义相似度计算、RAG检索召回率”验证，若生僻术语的检索召回率低于80%，则增加样本量、调整训练参数，重新微调。

Y-aong...About 10 min

LlamaIndex 中最具借鉴价值的五点

这是AI帮我总结出来LlamaIndex 中最具借鉴价值的五点

✅ 亮点 1：分层索引（Hierarchical Indexing） + 父子文档检索（Parent-Child Chunking）

🔍 LlamaIndex 做法：

将文档切分为 小块（child nodes） 用于精确检索；
同时保留 大块（parent nodes，如整段/整页） 作为上下文容器；
检索时先找最相关的 child，再返回其 parent 作为上下文，避免信息碎片化。

Y-aong...About 3 min

Agent的五种设计模式

前言：当 AI 需要“三思而后行”

现在的 AI 已经不仅仅是聊天机器人了。当我们让 AI 去订机票、分析财报或者修 Bug 时，我们其实在要求它像人一样工作。

人类解决问题通常不是靠“灵光一现”（虽然有时候是），而是靠逻辑推演、工具使用、自我反省和分工合作。这就是 Agentic Design Patterns（智能体设计模式）的由来。

在 LangChain 生态中，构建 Agent 早已不是简单的 LLMChain，而是进入了 LangGraph 的时代。今天我们用最通俗的方式，聊聊构建稳健 AI Agent 的 5 种核心设计模式。

Y-aong...About 5 min

多轮对话调优

仅靠 LangChain 提供的“开箱即用”组件构建多轮 RAG 对话系统，往往在真实场景中效果不佳。

原因包括：

对话历史冗余或噪声累积：越聊越长，LLM 注意力被分散；
检索 query 不准确：后续问题依赖上下文（如“他指的是谁？”），但原始 query 无法独立检索；
上下文窗口限制：LLM 输入长度有限，无法塞入全部历史 + 检索结果；
幻觉增强：错误的历史理解会误导后续回答；
LangChain 默认链式结构较“线性”，缺乏对多轮语义状态的显式建模。

Y-aong...About 3 min

...

Jump to:

ORDERLINES

RAG检索召回率低

一、数据层优化（源头解决数据质量问题）

分布式RAG系统

一、为什么需要分布式

RAG系统的幻觉如何解决

向量数据库（Faiss、Milvus、Chroma）的索引机制

一、为什么很重要

多路召回

一、为什么需要多路召回

多Agent调用调度策略

一、多工具调用调度策略设计

Embedding模型微调

基本步骤

LlamaIndex 中最具借鉴价值的五点

✅ 亮点 1：分层索引（Hierarchical Indexing） + 父子文档检索（Parent-Child Chunking）

🔍 LlamaIndex 做法：

Agent的五种设计模式

前言：当 AI 需要“三思而后行”

多轮对话调优