人工智能

人工智能 / 2022-10-24

本文根据知乎的二手资料(没读论文)调研了一遍市面上最主要的一些生成模型(没找 state-of-art 的微创新花活),并根据其发展脉络做了精简介绍,尽量罗列了其优劣、底层逻辑与实现。

人工智能 / 2022-10-24

强化学习的环境观测值 observation 并不总是非常可靠,有时候他会比 state 涵盖更多冗余信息,有时候又无法表征出 state 的全貌。如何将 observation 处理得更适合 RL 训练,是 srl 需要处理的问题。

人工智能 / 2022-10-24

DDPG 输出的 action 是连续的,如果希望它输出离散值,有直接采样与处理成 one-hot 两种方法。WOLP 是对直接采样成离散值的优化,经测试结果并不理想。

人工智能 / 2022-10-23

2019 年入门强化学习时的笔记

人工智能 / 2022-10-23

在强化学习的探索过程中,智能体可能会尝试导致严重错误的危险行为。Safe RL 探讨的就是怎样安全地探索与运行。

人工智能 / 2022-10-23

Safe Exploration in Continuous Action Spaces

人工智能 / 2022-10-23

深度强化学习调研

人工智能 / 2022-10-23

多智能体强化学习调研

人工智能 / 2022-10-23

约束策略优化算法是一种典型的 Safe RL,衍生自 TRPO,但复杂度远高于传统的方法,是一种纯数学的做法

人工智能 / 2022-10-23

cs285 听课笔记,持续更新中(咕咕咕)

一只学术咸鱼 _(:ᗤ」ㄥ)_