强化学习 标签

LATS: 将语言模型中的推理、行动和规划统一起来

LATS是一种利用大型语言模型（LLMs）进行决策的框架，它将LLMs作为代理、价值函数和优化器，以增强决策能力。LATS采用蒙特卡罗树搜索作为模型，利用外部反馈的环境提供更加灵活和适应性的问题解决机制。LATS在HumanEval上使用GPT-4实现了94.4%的编程得分，在WebShop上使用GPT-3.5实现了平均得分75.9。

猞猁-zlj大约 8 分钟

XoT: 强化学习增强思维生成

该文介绍了一种名为XOT的提示技术，它增强了像GPT-3和GPT-4这样的大型语言模型(llm)解决复杂问题的潜力。

猞猁-zlj大约 4 分钟

BPE分词器

字节对编码（Byte Pair Encoder，BPE），又称 digram coding 双字母组合编码，是一种数据压缩算法，用来在固定大小的词表中实现可变⻓度的子词。该算法简单有效，因而目前它是最流行的方法。

最后的开神-wkyc大约 5 分钟

PPO：从策略梯度算法到近端策略优化算法

近端策略优化算法（Proximal Policy Optimization，PPO）是一种策略梯度优化算法，它对标准的策略梯度方法做了改进，使得训练更加稳定。PPO的主要思想是：在每个更新步骤中，我们要确保当前的策略参数不会偏离旧策略参数太远。

最后的开神-wkyc大约 6 分钟