CS285 深度强化学习 Vol8 | Q 函数 从Policy gradient,到Actor- critic,我们尝试丢弃policy,从AC到Q- iteration或者Q- learning我们彻底丢弃Policy,但是遇到不能收敛的问题。现在我们尝试改进Q- learning来实现想要的功能 0x01 Q- learning中的问题上次从理论的角度看出online Q iteration很难收敛,更直观的看待问题我们会发现有以下几点的原 2024-04-29 算法基础 #CS285 #强化学习 #深度学习 #动作状态价值
CS285 深度强化学习 Vol7 | 值函数 在经过Lecture04介绍RL的基本概念之后,Lecture05介绍基于policy的方法,我们直接利用return的梯度进行策略学习,之后我们尝试利用Q或者V来改进policy evaluation步骤,那么我们是否可以直接抛弃参数化的梯度(parameterized policies),转向仅仅利用Q或者V进行RL 0x01 抛弃Actor- critic中的Actor1.1 回顾Actor 2024-04-29 算法基础 #CS285 #强化学习 #深度学习 #Q函数 #价值学习
CS285 深度强化学习 Vol5 | Policy gradient 本节课的目标是搞明白Policy gradient一类的REINFORCEMENT方法,并且理解背后的局限性,然后知道为什么textbook很容易讲清楚,但是在实践中不行的原因。之后从Causality和Baseline两种方法来降低On- policy PG的方差。并给出结合IS(important sampling)的Off policy的梯度方法。最后利用代码实现RL里面的hello wor 2024-04-29 算法基础 #强化学习 #深度学习 #梯度提升
CS285 深度强化学习 Vol6 | Actor Critic 主要介绍演员评论家过程,从最基础的Policy Gradient中剖析如何拟合Policy Evaluation的部分,并推导得到Actor- Critic算法。可以看出从之前直观的Policy,到利用state- value或者action- state- value进行近似。这个过程中采样结果与理论推导的权衡贯穿理论推导过程。在这个基础上也会引来下一节Lecture07关于value func 2024-04-29 算法基础 #CS285 #强化学习 #深度学习 #Actor critic 算法
CS285 深度强化学习 Vol4 | 算法分类 Sergev Levine的课讲强化学习我唯一听得懂不同强化学习究竟有哪些分类,同时是如何进行分类的。本次Lecture的目标是完善定义Definition与记号notation,并认清楚RL objective,并给出具体强化学习算法的总结。 0x01 Definition of a MDP1.1 Recap RL with imitation learning我们在之前的Lecture02-S 2024-04-29 算法基础 #CS285 #强化学习 #深度学习 #导论
CS285 动手学强化学习 Vol2 | 行为克隆 目标是明白RL中的一些定义(definition)和记号(notation),主要是从MDP的定义,然后模仿学习(Imitation learning)和$\epsilon$-greedy 学习的角度介绍了强化学习中的case 0x01 Definition of Sequential decision problem1.1 概率论关于概率论的记号,与研一课程《应用统计》不一样。我猜想多是具有另外 2024-04-29 算法基础 #行为克隆 #CS285 #强化学习 #深度学习
动手学深度学习 Vol5|循环神经网络RNN 承接上一会对Attention中seq2seq的模型的困惑,这里从RNN到介绍到更传统的Seq2Seq模型。同时结合最近接触的花书来利用更有利的工具解释RNN中的梯度。并给出序列学习中对于gradient或者hidden state转变的过程,在针对hidden state中的转变中引申出GRU、LSTM之类的变种,并结合D@L给出代码的实现。 0x01 序列学习与RNN1.1 序列学习Seq2S 2024-04-29 算法基础 #深度学习 #RNN
动手学深度学习 Vol4 | Attention机制 本来就以Attention为基础的Transformer结构很感兴趣,想直接从CNN跳到Attention来学习,但是通过了解一些基本的背景发现并不现实,transformer的提出本来就是在机器翻译的基础上,所以先天的在一些问题场景的解释中并不是以回归数据、或者说二维图像数据,而是基于序列(seq)类型的数据进行解释的,所以需要在了解认清楚seq2seq学习之后才能对attention有一些理解 2024-04-29 算法基础 #深度学习 #李沐 #attention
CS285 深度强化学习 Vol1 | 基本概念 初始强化学习最难的地方在于晦涩的专业词汇以及复杂的数学推导;同时深度强化学习并不是强化学习的终点,在这个过程中依旧需要human在其中扮演的地方。这里浅薄看蘑菇书来了解。主要作为了解强化学习的基本概念,希望从随机过程出发,来给出强化学习中智能体agent与环境 env之间的基本概念 0x01 随机过程的基础概率论和应用统计是研究概率论中多个随机事件所构成的具有一般性规律的学科;而随机过程则是对这个 2024-04-29 算法基础 #CS285 #强化学习 #深度学习