现在我希望对embedding模型进行微调,
模型的选择是bge -cn 1.5那款,
我的业务目标是针对多个成对的长文本产品描述进行微调,每对产品描述经过先验知识已知描述B是可以满足描述A的,现在微调的目的就是希望后续的召回文档里可以尽可能的召回的更加准确(从我格式化的产品列表里)
我尝试多种构建的方法,比如llama index中微调要求的问答对,也尝试了直接长文本对长文本的构建,效果都不太尽如人意,所以在此求助,想看看针对这样产品匹配的微调,我的数据要怎么构建才能保证一个高泛用,且可靠的训练集合,从而有效的提高我的Embedding模型的性能以及召回的准确率。
感谢~