Instruct Tuning和Prompt Tuning数据集分享

shb大约 4 分钟

Instruct Tuning和Prompt Tuning数据集分享

Instruct Tuning（指令微调）数据集和Prompt Tuning(提示微调)数据集在模型微调方面，尤其是在模型与人类认识对齐方面，作用巨大。本文针对一些质量较高的指令微调数据集和提示微调数据集，进行了简要介绍。

1 Instruct Tuninig数据集分享

（1） Super-Natural Instruction 【Allen AI】

这些自然语言指令清楚而完整地描述了一项任务（传统上定义为将输入字符串映射到输出字符串）。配备“理解”语言说明的模型，如果提供了任务说明，应该可以成功解决任何看不见的任务。

（2）HH-RLHF【Anthropic】

项目链接：https://github.com/anthropics/hh-rlhfopen in new window
数量：
训练集：161k
测试集：8.55k
Anthropic 公司旗下的 Claud 是 ChatGPT 的主要竞品之一。
Anthropic 开源了其在自己产品线中使用的 RLHF 数据集：
链接：https://huggingface.co/datasets/Anthropic/hh-rlhfopen in new window

（3）Unnatural Instruction【orhonovich】

使用 LLMs 自主生成 instruction 数据是 instruct-tuning 领域较为活跃的一个方向。
Unnatural Instruction 使用 GPT3（text-davinci-002）生成了 64k 的 instruction prompt 数据。并使用同样的模型将 64k 的 prompt 进行改写，最终得到了 240k 条 instruction 数据。
论文中显示，在 Instruct-Tuning 中 LLMs 自主生成的 prompt 表现出了良好的效果，甚至超过了在 P3 等数据上进行微调的 T0 等模型。

（4）Self-Instruct【yizhongw】

项目链接：https://github.com/yizhongw/self-instructopen in new window
Self-Instruct 同样是使用 LLMs 生成 prompt 进行 instruct-tuning 的思路。不过使用了更 fine-grained 的生成流程。
Task pool 和 Quality filtering 等概念被引入，部分缓解了 self-intrauct 类型数据的 noise 问题

（5）Flan Collection【Google】

项目链接：https://github.com/google-research/FLAN/tree/main/flan/v2open in new window
Google 在这个项目中将自己的 Flan 2021 数据与一些开源的 instruction 数据（P3，super-natural instruction 等）进行了合并

（6）InstructDial【prakharguptaz】

项目链接：https://github.com/prakharguptaz/Instructdial/tree/main/datasetsopen in new window
InstructDial 是在特定的一种任务类型上进行指令微调的尝试。实验结果表明，在对话指令数据上微调后，模型在对话任务上的表现强于在超大规模任务集上的结果

2 Prompt Tuning数据集分享

（1）PromptSource【BigScience】

项目链接：https://github.com/bigscience-workshop/promptsourceopen in new window
BigScience 由 Hugging Face 和法国 CNRS，IDRIS，GENCI 等联合组织，是当下最大的开源 LLMs 组织之一。
BigScience 在 2021 年末开发了PromptSource项目，开源了一系列工具 toolkits，帮助研究者基于现有NLP 任务构建 prompt。截止目前，PromptSource 项目包含了 270 个 NLP 任务的超过 2000 个 prompt 模版。

（2）P3【BigScience】

项目链接：https://huggingface.co/datasets/bigscience/P3open in new window
语言：英文
在promptsource基础上，BigScience 构建了 P3 数据集。在 Hugging Face Hub 上你可以找到 P3 数据，P3 的数据规模在 100M-1B 之间。

（3）xMTF 【BigScience，包含中文】

项目链接：https://huggingface.co/datasets/bigscience/P3open in new window

BigScience 在英语 prompt 的基础上，扩展其 prompt 到多种非英语语言。
该项目包含了 13 个 NLP 任务，并采用了 46 个不同的语言的版本。对应的 prompt 包含的语种个数不定。

（4）UnifiedSKG 【HKU】

项目主页：https://unifiedskg.com/open in new window

UnifiedSKG 在 Text-to-Text 的框架中加入了 knowledge grounding，也就是在 prompt-output 的框架中，加入了结构化数据做辅助，共21个任务数据集，

解决问题：做打破彼此任务之间的边界的第一次简单尝试，使得这些可以在同一个UnifiedSKG framework下进行学习并在这些任务上取得不错的结果

为方便读者阅读，上述数据集可以总结概括为以下表格

数据集/项目名称	组织/作者	类别	简介
Natural Instruction / Super-Natural Instruction	Allen AI	指令微调	包含61个NLP任务（Natural Instruction）和1600个NLP任务（Super-Natural Instruction）的指令数据
HH-RLHF	Anthropic	指令微调	旨在训练Helpful and Harmless（HH）的LLMs的RLHF数据集
Unnatural Instruction	orhonovich	指令微调	使用GPT3将 64k 的 prompt 进行改写，最终得到了 240k 条 instruction 数据。
Self-Instruct	yizhongw	指令微调	使用LLMs生成prompt进行instruct-tuning的方法，引入Task pool和Quality filtering等概念
Flan Collection	Google	指令微调	将Flan 2021数据与一些开源的instruction数据（P3，super-natural instruction等）进行合并
InstructDial	prakharguptaz	指令微调	在特定的一种任务类型（对话指令）上进行指令微调的尝试
PromptSource / P3	BigScience	提示微调	包含270个NLP任务的2000多个prompt模版（PromptSource）和规模在100M-1B之间的P3数据集
xMTF	BigScience	提示微调	包含13个NLP任务、46种语言的多语言prompt数据
Unnatural Instruction	orhonovich	提示微调	使用GPT3生成64k的instruction prompt数据，经改写后得到240k条instruction数据
UnifiedSKG	HKU	提示微调	在Text-to-Text框架中加入knowledge grounding，将结构化数据序列化并嵌入到prompt中

阅读原文open in new window

Instruct Tuning和Prompt Tuning数据集分享

# Instruct Tuning和Prompt Tuning数据集分享

# 1 Instruct Tuninig数据集分享

# 2 Prompt Tuning数据集分享

Instruct Tuning和Prompt Tuning数据集分享

1 Instruct Tuninig数据集分享

2 Prompt Tuning数据集分享