DRL

人工智能 / 2022-10-23

分类

是否在线更新

  • on-policy
    • IMPALA
    • PPO
    • A3C
  • off-policy
    • SAC
    • DQN
    • DDPG

学习方式

  • Policy-based
    • PG - 蒙特卡洛 or TD
    • TRPO
    • PPO
  • Value-based
    • Q-Learning
  • Actor-Critic
    • DDPG

策略性质

  • 确定性策略
  • 随机策略
    • softmax

环境特殊性

  • Safe RL
  • MARL

问题

  1. off-policy 问题
    • 重要性采样
    • 通过对 Q 的估计代替对 V 的估计
  2. Q 估计值较大问题
    • 维护双 Critic 网络,每次取其中的最小 Q 估计值
  3. 偏差问题
    • PG 是有方差、无偏差的,但是引入了 γ\gamma 后,discounted reward 相对于最初的蒙特卡洛轨迹是有偏的。不过大多数 RL 学的就是 discounted cumulative reward,此时不关注这里的偏差。

技巧

网络

  1. input normalization
  2. layer normalization
  3. value clipping
  4. orthogonal initialization
  5. gradient clipping

调参

  1. limited grid-search

基本方法

  1. GAE

    • 本文总结了策略梯度常用的六种形式:蒙特卡洛、从当前策略开始的蒙特卡洛、前面的方法减去 baseline、Q 方程、优势方程、TD。
    • γjust\gamma - just:优势函数估计值计算出的策略梯度期望与真实值相同。注意,上述的 2 和 3 不是 γjust\gamma - just 的。
    • GAE:A^tGAE(γ,λ)=l=0(γλ)lδt+lV=l=0(γλ)l(rt+γV(st+l+1)V(st+l))\widehat{A}_{t}^{G A E(\gamma, \lambda)}=\sum_{l=0}^{\infty}(\gamma \lambda)^{l} \delta_{t+l}^{V}=\sum_{l=0}^{\infty}(\gamma \lambda)^{l}\left(r_{t}+\gamma V\left(s_{t+l+1}\right)-V\left(s_{t+l}\right)\right)
  2. PopArt

一只学术咸鱼 _(:ᗤ」ㄥ)_