机器学习之强化学习中的策略学习基于价值的(Policy-Based)方法直接输出下一步动作的概率,根据概率来选取动作。但不一定概率最高就会选择该动作,还是会从整体进行考虑。适用于非连续和连续的动作。常见的方法有Policy gradients。 猞猁-zlj大约 4 分钟语言模型Reinforcement LearningPolicy-basedOpenAI