一、概述
title:UNIPELT: A Unified Framework for Parameter-Efficient Language Model Tuning
论文地址:
代码:
1.1 Motivation
1.2 Methods
说明:
1.3 Conclusion
二、详细内容
1 GLUE实验结果
P: P-tuning
在样本K=100,500,1000的实验上,UniPELT集成了多个微调方法的效果更好
2 Adapter方法分析:bottleneck大小对该方法效果的影响
3 LoRA方法对参数的敏感性
针对两个任务SST和MRPC,和不同的参数a来做实验,结果如下:
4 其他方法分析:
增加训练参数效果不一定好
LoRA训练参数比较小的情况下,效果好像也还可以
5 UniPELT和原始微调方法的上限对比
6 全量数据的训练效果
7 训练时间和推理时间分析
三、Adaptor、Prefix-tuning、LoRA背景知识
参考原文:从统一视角看各类高效finetune方法:
1 Adaptor方法介绍
Adaptor核心是在原Bert中增加参数量更小的子网络,finetune时固定其他参数不变,只更新这个子网络的参数。 Adaptor是最早的一类高效finetune方法的代表,在 Parameter-Efficient Transfer Learning for NLP(ICML 2019) 这篇文章中被提出。在原来的Bert模型的每层中间加入两个adapter。Adapter通过全连接对原输入进行降维进一步缩小参数量,经过内部的NN后再将维度还原,形成一种bottleneck的结构。在finetune过程中,原预训练Bert模型的参数freeze住不更新,只更新adapter的参数,大大减少了finetune阶段需要更新和保存的参数量。
2 Prefix-tuning方法介绍
Prefix-tuning的核心是为每个下游任务增加一个prefix embedding,只finetune这些embedding,其他参数freeze 。Prefix-tuning对应的论文是 Prefix-Tuning: Optimizing Continuous Prompts for Generation(2021) ,这类方法的思想来源于prefix prompt,prefix embedding相当于一个上下文信息,对模型最终产出的结果造成影响,进而只finetune这个embedding实现下游任务的迁移。
3LoRA方法介绍
LoRA的核心是通过引入参数量远小于原模型的可分解的两小矩阵建立一个旁路,通过finetune这个旁路来影响预训练模型 。LoRA于 LoRA: Low-rank adaptation of large language models(2021) 论文中被提出,利用低秩矩阵替代原来全量参数的训练,提升finetune效率。
本文转载自,作者:
本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载者并注明出处:https://jmbhsh.com/shipinzhuangshi/32749.html