今年三月,OpenAI重磅发布了GPT-4大模型,带来了比GPT-3.5更强的推理、计算、逻辑能力。然而8月7日Konstantine Arkoudas撰写了一篇标题为GPT-4 Can't Reason的预印本论文,在业界引起轩然大波。该论文得出结论:尽管GPT-4偶尔会闪现出分析的才华,但它目前是完全无法推理的。而另一篇来自UCLA和华盛顿大学的研究也发现,GPT-4在大学的数学、物理、化学任务的推理上,表现不佳。
大约 13 分钟
今年三月,OpenAI重磅发布了GPT-4大模型,带来了比GPT-3.5更强的推理、计算、逻辑能力。然而8月7日Konstantine Arkoudas撰写了一篇标题为GPT-4 Can't Reason的预印本论文,在业界引起轩然大波。该论文得出结论:尽管GPT-4偶尔会闪现出分析的才华,但它目前是完全无法推理的。而另一篇来自UCLA和华盛顿大学的研究也发现,GPT-4在大学的数学、物理、化学任务的推理上,表现不佳。
OpenAI包含许多大语言模型,主要分为两大类:文本补全模型和聊天补全模型。其中聊天补全模型本质是文本补全模型添加聊天Prompt框架之后进行文本补全。
强化学习(Reinforcement Learning,RL)是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。强化学习是除了监督学习和非监督学习之外的第三种基本的机器学习方法。与监督学习不同的是,强化学习不需要带标签的输入输出对,同时也无需对非最优解的精确地纠正。强化学习被广泛认为是实现通用人工智能(AGI)的关键技术之一。
基于价值的(Policy-Based)方法直接输出下一步动作的概率,根据概率来选取动作。但不一定概率最高就会选择该动作,还是会从整体进行考虑。适用于非连续和连续的动作。常见的方法有Policy gradients。
基于价值的(Value-Based)方法输出的是动作的价值,选择价值最高的动作,也就是通过价值选动作。价值学习经典的算法有Sarsa和Q-learning算法。
首先回顾了GPT系列模型的发展历程,然后介绍了ChatGPT模型最重要的技术指令微调,最后介绍了上下文学习。