跳至主要內容
LATS: 将语言模型中的推理、行动和规划统一起来

LATS: 将语言模型中的推理、行动和规划统一起来

LATS是一种利用大型语言模型(LLMs)进行决策的框架,它将LLMs作为代理、价值函数和优化器,以增强决策能力。LATS采用蒙特卡罗树搜索作为模型,利用外部反馈的环境提供更加灵活和适应性的问题解决机制。LATS在HumanEval上使用GPT-4实现了94.4%的编程得分,在WebShop上使用GPT-3.5实现了平均得分75.9。


猞猁-zlj大约 8 分钟大模型推理推理LLMCoTToT强化学习
XoT: 强化学习增强思维生成

XoT: 强化学习增强思维生成

该文介绍了一种名为XOT的提示技术,它增强了像GPT-3和GPT-4这样的大型语言模型(llm)解决复杂问题的潜力。


猞猁-zlj大约 4 分钟大模型推理推理LLMCoT强化学习
BPE分词器

BPE分词器

字节对编码(Byte Pair Encoder,BPE),又称 digram coding 双字母组合编码,是一种数据压缩算法,用来在固定大小的词表中实现可变⻓度的子词。该算法简单有效,因而目前它是最流行的方法。


最后的开神-wkyc大约 5 分钟Token分词器强化学习
PPO:从策略梯度算法到近端策略优化算法

PPO:从策略梯度算法到近端策略优化算法

近端策略优化算法(Proximal Policy Optimization,PPO)是一种策略梯度优化算法,它对标准的策略梯度方法做了改进,使得训练更加稳定。PPO的主要思想是:在每个更新步骤中,我们要确保当前的策略参数不会偏离旧策略参数太远。


最后的开神-wkyc大约 6 分钟语言模型模型强化学习