RAG存在的问题和解决思路
一、文档层(Document Layer)问题
- 1. PDF / Office 文档格式混乱
问题:PDF 结构丢失、段落断裂、表格识别错误、图像关联中断。
解决方案:文档结构化解析(Document Normalization),多模态解析。
-
文字/图像/表格之间的关联关系丢失
表格 + 解释性文本 绑定为一个 chunk
图像 + caption + 引用段落 绑定为一个 multimodal block
采用 多模态 embedding(CLIP / siglip / Voyage-multimodal)
-
Chunk 边界断裂(Chunking 不感知结构)
-
滑动窗口分块
-
表格、图像不切碎,保持单独 chunk
-
基于标题层级/段落
-
多文档版本混乱(旧版手册与新版矛盾)
- 元数据过滤
- 检索时指定版本
- 生成时表明冲突
-
多语言文档混合(中英并存)
- 索引时多语言
- 检索时中英结合
-
专业领域知识
- Embedding微调