跳至主要內容
探究GPT-4到底有没有推理能力?

今年三月,OpenAI重磅发布了GPT-4大模型,带来了比GPT-3.5更强的推理、计算、逻辑能力。然而8月7日Konstantine Arkoudas撰写了一篇标题为GPT-4 Can't Reason的预印本论文,在业界引起轩然大波。该论文得出结论:尽管GPT-4偶尔会闪现出分析的才华,但它目前是完全无法推理的。而另一篇来自UCLA和华盛顿大学的研究也发现,GPT-4在大学的数学、物理、化学任务的推理上,表现不佳。


猞猁-zlj大约 13 分钟大模型推理GPT-4推理OpenAI
OpenAI可用大语言模型分类和信息

OpenAI可用大语言模型分类和信息

OpenAI包含许多大语言模型,主要分为两大类:文本补全模型和聊天补全模型。其中聊天补全模型本质是文本补全模型添加聊天Prompt框架之后进行文本补全。


最后的开神-wkyc大约 2 分钟语言模型OpenAI
机器学习之强化学习概述

强化学习(Reinforcement Learning,RL)是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。强化学习是除了监督学习和非监督学习之外的第三种基本的机器学习方法。与监督学习不同的是,强化学习不需要带标签的输入输出对,同时也无需对非最优解的精确地纠正。强化学习被广泛认为是实现通用人工智能(AGI)的关键技术之一。


猞猁-zlj大约 4 分钟语言模型Reinforcement LearningOpenAI
机器学习之强化学习中的策略学习

基于价值的(Policy-Based)方法直接输出下一步动作的概率,根据概率来选取动作。但不一定概率最高就会选择该动作,还是会从整体进行考虑。适用于非连续和连续的动作。常见的方法有Policy gradients。


猞猁-zlj大约 4 分钟语言模型Reinforcement LearningPolicy-basedOpenAI
机器学习之强化学习中的价值学习

基于价值的(Value-Based)方法输出的是动作的价值,选择价值最高的动作,也就是通过价值选动作。价值学习经典的算法有Sarsa和Q-learning算法。


猞猁-zlj大约 2 分钟语言模型Reinforcement LearningValue-basedOpenAI
ChatGPT相关技术介绍

首先回顾了GPT系列模型的发展历程,然后介绍了ChatGPT模型最重要的技术指令微调,最后介绍了上下文学习。


猞猁-zlj大约 4 分钟语言模型OpenAIGoogleInstruct TuningIn-context LearningChatGPT