本文根据知乎的二手资料(没读论文)调研了一遍市面上最主要的一些生成模型(没找 state-of-art 的微创新花活),并根据其发展脉络做了精简介绍,尽量罗列了其优劣、底层逻辑与实现。
强化学习的环境观测值 observation 并不总是非常可靠,有时候他会比 state 涵盖更多冗余信息,有时候又无法表征出 state 的全貌。如何将 observation 处理得更适合 RL 训练,是 srl 需要处理的问题。
DDPG 输出的 action 是连续的,如果希望它输出离散值,有直接采样与处理成 one-hot 两种方法。WOLP 是对直接采样成离散值的优化,经测试结果并不理想。
2019 年入门强化学习时的笔记
在强化学习的探索过程中,智能体可能会尝试导致严重错误的危险行为。Safe RL 探讨的就是怎样安全地探索与运行。
Safe Exploration in Continuous Action Spaces
深度强化学习调研
多智能体强化学习调研
约束策略优化算法是一种典型的 Safe RL,衍生自 TRPO,但复杂度远高于传统的方法,是一种纯数学的做法
cs285 听课笔记,持续更新中(咕咕咕)