跳至主要內容
机器学习之强化学习概述

强化学习(Reinforcement Learning,RL)是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。强化学习是除了监督学习和非监督学习之外的第三种基本的机器学习方法。与监督学习不同的是,强化学习不需要带标签的输入输出对,同时也无需对非最优解的精确地纠正。强化学习被广泛认为是实现通用人工智能(AGI)的关键技术之一。


猞猁-zlj大约 4 分钟语言模型Reinforcement LearningOpenAI
机器学习之强化学习中的策略学习

基于价值的(Policy-Based)方法直接输出下一步动作的概率,根据概率来选取动作。但不一定概率最高就会选择该动作,还是会从整体进行考虑。适用于非连续和连续的动作。常见的方法有Policy gradients。


猞猁-zlj大约 4 分钟语言模型Reinforcement LearningPolicy-basedOpenAI
机器学习之强化学习中的价值学习

基于价值的(Value-Based)方法输出的是动作的价值,选择价值最高的动作,也就是通过价值选动作。价值学习经典的算法有Sarsa和Q-learning算法。


猞猁-zlj大约 2 分钟语言模型Reinforcement LearningValue-basedOpenAI