欢迎来到飞鸟慕鱼博客,开始您的技术之旅!
当前位置: 首页知识笔记正文

如何训练狗狗,如何训练自己变成狗

墨初 知识笔记 94阅读

BGE的技术亮点

高效预训练和大规模文本微调在两个大规模语料集上采用了RetroMAE预训练算法进一步增强了模型的语义表征能力通过负采样和难负样例挖掘增强了语义向量的判别力借鉴Instruction Tuning的策略增强了在多任务场景下的通用能力。

数据集的构成

RetroMAE预训练

主要思想是encoder用小一点的mask rate得到sentence embedding然后decoder用大一点的mask rate结合encoder得到的sentence embedding进行重构


此外为了使得每个token使用的context信息不同RetroMAE还使用了增强解码的方法

解码的时候每一行都带上下文信息和位置信息

微调 主要通过对比学习和Instruction Tuning的思想

对比学习是一种训练模型的方法通过比较正例和反例来学习数据的表示。

输入数据的格式模型接受三元组格式的数据作为输入包括一个查询query一个正例positive和一个反例negative。

in-batch negatives 策略除了上述三元组中的反例外他们还采用了“in-batch negatives”策略意思是在同一个批次的数据中使用其他数据作为额外的反例。

cross-device negatives sharing method这是一种在不同的GPU之间共享反例的方法目的是大大增加反例的数量。

训练硬件和参数使用了48个A100(40G)的GPU进行训练。批次大小为32,768因此每个查询在批次中有65,535个反例。使用了AdamW优化器学习率为1e-5。对比损失的温度为0.01。

在训练中为检索任务的查询添加了instruction。 对于英语指令是Represent this sentence for searching relevant passages: ; 对于中文指令是为这个句子生成表示以用于检索相关文章. 在评测中针对段落检索任务的任务需要在查询中添加指令但不需要为段落文档添加指令。

标签:
声明:无特别说明,转载请标明本文来源!