LATS: 将语言模型中的推理、行动和规划统一起来
LATS
是一种利用大型语言模型(LLMs)进行决策的框架,它将LLMs作为代理、价值函数和优化器,以增强决策能力。LATS采用蒙特卡罗树搜索作为模型,利用外部反馈的环境提供更加灵活和适应性的问题解决机制。LATS在HumanEval上使用GPT-4实现了94.4%的编程得分,在WebShop上使用GPT-3.5实现了平均得分75.9。
LATS
是一种利用大型语言模型(LLMs)进行决策的框架,它将LLMs作为代理、价值函数和优化器,以增强决策能力。LATS采用蒙特卡罗树搜索作为模型,利用外部反馈的环境提供更加灵活和适应性的问题解决机制。LATS在HumanEval上使用GPT-4实现了94.4%的编程得分,在WebShop上使用GPT-3.5实现了平均得分75.9。
该文介绍了一种名为XOT
的提示技术,它增强了像GPT-3和GPT-4这样的大型语言模型(llm)解决复杂问题的潜力。
本文介绍利用思维链方法来链式推理出隐式情感的方法,在 Zero-shot 设定下提升 50% F1 值。
用图的推理能力来设计 prompt,思维图能助力 LLM 解决更复杂的任务。近日,一个研究团队提出了更进一步的想法:思维图(GoT)。让思维从链到树到图,为 LLM 构建推理过程的能力不断得到提升,研究者也通过实验证明了这一点。他们也发布了自己实现的 GoT 框架。
今年三月,OpenAI重磅发布了GPT-4大模型,带来了比GPT-3.5更强的推理、计算、逻辑能力。然而8月7日Konstantine Arkoudas撰写了一篇标题为GPT-4 Can't Reason的预印本论文,在业界引起轩然大波。该论文得出结论:尽管GPT-4偶尔会闪现出分析的才华,但它目前是完全无法推理的。而另一篇来自UCLA和华盛顿大学的研究也发现,GPT-4在大学的数学、物理、化学任务的推理上,表现不佳。
本文对语言模型提示推理的最新进展进行了梳理,包括预备知识、提示推理方法的分类、深入的比较和讨论、开放的资源和基准、以及未来的潜在方向。
论文链接:https://arxiv.org/abs/2212.09597
资源列表:https://github.com/zjunlp/Prompt4ReasoningPapers
该文介绍了 Chain-of-Thought: 思维链
框架,结合 in-context
, few-shot prompting
以及多步中间推理,通过大模型来改善数学计算、常识推理的效果。
该文介绍了 Tree-of-Thought: 思维树
框架,由普林斯顿和谷歌DeepMind联合提出的全新「思维树」框架,让GPT-4可以自己提案、评估和决策,推理能力最高可提升1750%。