Skip to main content
Embedding模型微调

Embedding模型微调

基本步骤

  1. 数据准备:采集半导体领域的生僻术语相关数据,构建样本集:
  • 正样本对:生僻术语与对应的解释(如“晶圆键合工艺-通过高温高压将两片晶圆连接的工艺”)、生僻术语的不同表述(如“晶圆键合-晶圆贴合”);
  • 负样本对:生僻术语与无关术语(如“晶圆键合工艺-芯片封装”)、生僻术语与错误解释;样本量:至少采集1000组正样本对、500组负样本对,确保样本的多样性和有效性。
  1. 数据预处理:对样本进行清洗、标注,将生僻术语和解释进行分块,归一化处理适配模型输入,同
    时标注术语的领域标签。
  2. 微调训练:基于开源Embedding模型(如BGE-large),采用对比损失函数(Contrastive Loss),冻结模型底层基础层(前8层),仅训练顶层适配层(后4层),减少训练成本和过拟合;训练参数:学习率1e-5,批次大小32,训练轮次10-15轮。
  3. 效果验证:通过“语义相似度计算、RAG检索召回率”验证,若生僻术语的检索召回率低于80%,则增加样本量、调整训练参数,重新微调。

Y-aong...About 10 minAgentRAG,Embedding微调