大模型高效微调技术(PEFT)

1 · Jarson Cai · Oct. 24, 2023, 10:18 a.m.
🌀Jarson Cai's Blog https://caixiongjiang.github.io/blog/2023/llm/%E5%A4%A7%E6%A8%A1%E5%9E%8B%E9%AB%98%E6%95%88%E5%BE%AE%E8%B0%83%E6%8A%80%E6%9C%AF/ -大模型高效微调技术(PEFT) Adapter Tuning 技术原理 论文:Parameter-Efficient Transfer Learning for NLP 论文链接:http://proceedings.mlr.press/v97/houlsby19a/houlsby19a.pdf 该方法设计了一个Adapter结构,嵌入Transformer结构中。针对一个Transformer Block,增加两个Adapter结构,增加都放在残差结构之前。训练时,固定住原来的预训练模型参数不变,只对Adapter结构和Layer Normal层进行微调。Adapter层是一个类似于Squeeze-and-Excitation层思想的结构,首先使用较高维度的特征投影到较低维度的特征,中间通过...