CS285 深度强化学习 Vol6 | Actor Critic 主要介绍演员评论家过程,从最基础的Policy Gradient中剖析如何拟合Policy Evaluation的部分,并推导得到Actor- Critic算法。可以看出从之前直观的Policy,到利用state- value或者action- state- value进行近似。这个过程中采样结果与理论推导的权衡贯穿理论推导过程。在这个基础上也会引来下一节Lecture07关于value func 2024-04-29 算法基础 #深度学习 #强化学习 #CS285 #Actor critic 算法
CS285 深度强化学习 Vol4 | 算法分类 Sergev Levine的课讲强化学习我唯一听得懂不同强化学习究竟有哪些分类,同时是如何进行分类的。本次Lecture的目标是完善定义Definition与记号notation,并认清楚RL objective,并给出具体强化学习算法的总结。 0x01 Definition of a MDP1.1 Recap RL with imitation learning我们在之前的Lecture02-S 2024-04-29 算法基础 #深度学习 #强化学习 #CS285 #导论
CS285 动手学强化学习 Vol2 | 行为克隆 目标是明白RL中的一些定义(definition)和记号(notation),主要是从MDP的定义,然后模仿学习(Imitation learning)和$\epsilon$-greedy 学习的角度介绍了强化学习中的case 0x01 Definition of Sequential decision problem1.1 概率论关于概率论的记号,与研一课程《应用统计》不一样。我猜想多是具有另外 2024-04-29 算法基础 #深度学习 #强化学习 #CS285 #行为克隆
动手学深度学习 Vol5|循环神经网络RNN 承接上一会对Attention中seq2seq的模型的困惑,这里从RNN到介绍到更传统的Seq2Seq模型。同时结合最近接触的花书来利用更有利的工具解释RNN中的梯度。并给出序列学习中对于gradient或者hidden state转变的过程,在针对hidden state中的转变中引申出GRU、LSTM之类的变种,并结合D@L给出代码的实现。 0x01 序列学习与RNN1.1 序列学习Seq2S 2024-04-29 算法基础 #深度学习 #RNN
动手学深度学习 Vol4 | Attention机制 本来就以Attention为基础的Transformer结构很感兴趣,想直接从CNN跳到Attention来学习,但是通过了解一些基本的背景发现并不现实,transformer的提出本来就是在机器翻译的基础上,所以先天的在一些问题场景的解释中并不是以回归数据、或者说二维图像数据,而是基于序列(seq)类型的数据进行解释的,所以需要在了解认清楚seq2seq学习之后才能对attention有一些理解 2024-04-29 算法基础 #深度学习 #李沐 #attention
CS285 深度强化学习 Vol1 | 基本概念 初始强化学习最难的地方在于晦涩的专业词汇以及复杂的数学推导;同时深度强化学习并不是强化学习的终点,在这个过程中依旧需要human在其中扮演的地方。这里浅薄看蘑菇书来了解。主要作为了解强化学习的基本概念,希望从随机过程出发,来给出强化学习中智能体agent与环境 env之间的基本概念 0x01 随机过程的基础概率论和应用统计是研究概率论中多个随机事件所构成的具有一般性规律的学科;而随机过程则是对这个 2024-04-29 算法基础 #深度学习 #强化学习 #CS285
动手学深度学习Vol3 | 经典卷积神经网络实现 在初等卷积神经网络中,我们可以看出从平移不变和缩放不变性质而得到的卷积性质的基础上,在上个世纪诞生的LeNet成功实现与之前不同的路径,在GPU诞生之后,新的网络AlexNet、VGG、NiN、GoogLeNet、Residual Net、DenseNet逐渐发展。卷积神经网络从变深变多,逐渐到变成块以及一些trick的增加。 0x01 introduction1.1 PyTorch之前在讲座中听 2024-04-29 算法基础 #深度学习 #CV #李沐
动手学深度学习 Vol2 | 初等卷积神经网络实现 上一篇文章中介绍一个基本的机器学习模型线性回归实现的整个过程,将其步骤分为八个部分。之后D2L中介绍了soft Max、MLP等简单的模型。这里迈向深度学习,利用简单的卷积神经网络来介绍深度学习API的使用过程,从零开始搭建模型,将其分为数据集预处理、构建模型和训练及评估三个步骤。 0x01 Introduction of CNN1.1 卷积的由来我们可以将MNIST数据集中的输入变量(28,28 2024-04-29 算法基础 #深度学习 #CV #李沐 #LeNet
动手学深度学习 Vol1 | 线性回归实现 在CS229中主要关注的是一些传统机器学习的模型,包括广义线性模型(GLM)包含的Logistic Regression、Softmax Regression,生成模型的高斯判别式、Decision Tree、Support Vector Machine、浅层神经网络;侧重于对于理论的介绍。李沐课程中对于实际操作的代码实现过程给出了详细的介绍,是非常有意思的。其实整个学习过程的框架无论是简单的逻辑 2024-04-29 算法基础 #机器学习 #深度学习 #李沐