PPO:从策略梯度算法到近端策略优化算法
近端策略优化算法(Proximal Policy Optimization,PPO)是一种策略梯度优化算法,它对标准的策略梯度方法做了改进,使得训练更加稳定。PPO的主要思想是:在每个更新步骤中,我们要确保当前的策略参数不会偏离旧策略参数太远。
大约 6 分钟
近端策略优化算法(Proximal Policy Optimization,PPO)是一种策略梯度优化算法,它对标准的策略梯度方法做了改进,使得训练更加稳定。PPO的主要思想是:在每个更新步骤中,我们要确保当前的策略参数不会偏离旧策略参数太远。
作者证明了通过在大量未标注文本上对语言模型进行生成式预训练,然后在每个特定任务上进行歧视性微调,可以在这些任务上实现巨大收益。与以前的方法相比,他们在微调期间利用面向任务的输入转换来实现有效的转移,同时对模型架构所需的更改最小。
新加坡国立大学的研究人员发布了一篇全新的论文《To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis》,研究了大语言模型的Epoch次数设置问题。文章讨论了在重复的数据集上进行多次训练对大语言模型性能的影响。作者指出,随着大语言模型的规模和训练数据集中Token数量的增加,模型性能受到很大的影响。然而,现有的数据集中的Token数量有限,模型参数规模的增长可能会导致Token不足的情况,被称为"Token危机"。