Embedding模型微调

Embedding模型微调

基本步骤

数据准备：采集半导体领域的生僻术语相关数据，构建样本集：

正样本对：生僻术语与对应的解释（如“晶圆键合工艺-通过高温高压将两片晶圆连接的工艺”）、生僻术语的不同表述（如“晶圆键合-晶圆贴合”）；
负样本对：生僻术语与无关术语（如“晶圆键合工艺-芯片封装”）、生僻术语与错误解释；样本量：至少采集1000组正样本对、500组负样本对，确保样本的多样性和有效性。

数据预处理：对样本进行清洗、标注，将生僻术语和解释进行分块，归一化处理适配模型输入，同
时标注术语的领域标签。
微调训练：基于开源Embedding模型（如BGE-large），采用对比损失函数（Contrastive Loss），冻结模型底层基础层（前8层），仅训练顶层适配层（后4层），减少训练成本和过拟合；训练参数：学习率1e-5，批次大小32，训练轮次10-15轮。
效果验证：通过“语义相似度计算、RAG检索召回率”验证，若生僻术语的检索召回率低于80%，则增加样本量、调整训练参数，重新微调。

Y-aong...About 10 min