机器学习之强化学习中的价值学习基于价值的(Value-Based)方法输出的是动作的价值,选择价值最高的动作,也就是通过价值选动作。价值学习经典的算法有Sarsa和Q-learning算法。 猞猁-zlj大约 2 分钟语言模型Reinforcement LearningValue-basedOpenAI