Policy-based 标签

基于价值的（Policy-Based）方法直接输出下一步动作的概率，根据概率来选取动作。但不一定概率最高就会选择该动作，还是会从整体进行考虑。适用于非连续和连续的动作。常见的方法有Policy gradients。

猞猁-zlj大约 4 分钟