为什么单独拿出来,强化学习是和传统机器学习和NN类机器学习完全不同的一类机器学习,挺难的,理论比NN还复杂。

分为两种:policy-based 和 value-based

reinfoecement learning

什么意思呢?pai这个东西是策略库,我有一个agent,在policy里面,我这个agent直接给出执行某个action,而value里面,我这个agent是给出pai对应的value,这个value相当于打分,分数高就好,低就不好。

Q-learning是基于Value的,但是有一点不同,Q(s,a)与V(s),Q加了执行某个action再评估value,V却没有。

直接基于policy的现在很少了,我也不知道哪些模型是这类型的。

A3C是混合型的。

on policy & off policy

on policy: 同一个agent去获取数据,再去更新策略 off policy: 获取数据的agent和更新策略的agent不是同一个

不太好理解,具体看hongyi lee的讲解

value function

value function 和 pilicy-based 里面的 R有什么不一样呢?都是计算后面所有步骤产生的r和,但是value function加了discount

具体还有什么其他的区别我还不太了解,还是要多看看hongyi lee的讲解,再更新