跳至主要內容
S-LoRA:为数千个并发LoRA Adapter提供服务

S-LoRA:为数千个并发LoRA Adapter提供服务

S-LoRA 将所有Adapter存储在主存中,并将当前运行的查询使用的Adapter获取到 GPU 内存。为了有效利用GPU内存并减少碎片,S-LoRA提出了统一分页(Unified Paging)。


最后的开神-wkyc大约 6 分钟微调技术PEFTHugging FaceLoRA
PEFT:最先进的参数高效微调方法

PEFT:最先进的参数高效微调方法

参数高效微调 (PEFT) 方法能够将预训练的语言模型 (PLM) 有效地适应各种下游应用程序,而无需微调模型的所有参数。微调大型 PLM 的成本通常高得令人望而却步。在这方面,PEFT方法仅微调少量(额外)模型参数,从而大大降低了计算和存储成本。


hyb大约 15 分钟微调技术PEFTHugging FaceLoRAAdaLoRAPrefix TuningP-TuningPrompt Tuning