分类
是否在线更新
- on-policy
- IMPALA
- PPO
- A3C
- off-policy
- SAC
- DQN
- DDPG
学习方式
- Policy-based
- PG - 蒙特卡洛 or TD
- TRPO
- PPO
- Value-based
- Q-Learning
- Actor-Critic
- DDPG
策略性质
- 确定性策略
- 随机策略
- softmax
环境特殊性
- Safe RL
- MARL
问题
- off-policy 问题
- 重要性采样
- 通过对 Q 的估计代替对 V 的估计
- Q 估计值较大问题
- 维护双 Critic 网络,每次取其中的最小 Q 估计值
- 偏差问题
- PG 是有方差、无偏差的,但是引入了 后,discounted reward 相对于最初的蒙特卡洛轨迹是有偏的。不过大多数 RL 学的就是 discounted cumulative reward,此时不关注这里的偏差。
技巧
网络
- input normalization
- layer normalization
- value clipping
- orthogonal initialization
- gradient clipping
调参
- limited grid-search
基本方法
-
- 本文总结了策略梯度常用的六种形式:蒙特卡洛、从当前策略开始的蒙特卡洛、前面的方法减去 baseline、Q 方程、优势方程、TD。
- :优势函数估计值计算出的策略梯度期望与真实值相同。注意,上述的 2 和 3 不是 的。
- GAE:
-
PopArt