CS285 动手学强化学习 Vol2 | 行为克隆 目标是明白RL中的一些定义(definition)和记号(notation),主要是从MDP的定义,然后模仿学习(Imitation learning)和$\epsilon$-greedy 学习的角度介绍了强化学习中的case 0x01 Definition of Sequential decision problem1.1 概率论关于概率论的记号,与研一课程《应用统计》不一样。我猜想多是具有另外 2024-04-29 算法基础 #行为克隆 #CS285 #强化学习 #深度学习
动手学深度学习 Vol5|循环神经网络RNN 承接上一会对Attention中seq2seq的模型的困惑,这里从RNN到介绍到更传统的Seq2Seq模型。同时结合最近接触的花书来利用更有利的工具解释RNN中的梯度。并给出序列学习中对于gradient或者hidden state转变的过程,在针对hidden state中的转变中引申出GRU、LSTM之类的变种,并结合D@L给出代码的实现。 0x01 序列学习与RNN1.1 序列学习Seq2S 2024-04-29 算法基础 #深度学习 #RNN
动手学深度学习 Vol4 | Attention机制 本来就以Attention为基础的Transformer结构很感兴趣,想直接从CNN跳到Attention来学习,但是通过了解一些基本的背景发现并不现实,transformer的提出本来就是在机器翻译的基础上,所以先天的在一些问题场景的解释中并不是以回归数据、或者说二维图像数据,而是基于序列(seq)类型的数据进行解释的,所以需要在了解认清楚seq2seq学习之后才能对attention有一些理解 2024-04-29 算法基础 #深度学习 #李沐 #attention
CS285 深度强化学习 Vol1 | 基本概念 初始强化学习最难的地方在于晦涩的专业词汇以及复杂的数学推导;同时深度强化学习并不是强化学习的终点,在这个过程中依旧需要human在其中扮演的地方。这里浅薄看蘑菇书来了解。主要作为了解强化学习的基本概念,希望从随机过程出发,来给出强化学习中智能体agent与环境 env之间的基本概念 0x01 随机过程的基础概率论和应用统计是研究概率论中多个随机事件所构成的具有一般性规律的学科;而随机过程则是对这个 2024-04-29 算法基础 #CS285 #强化学习 #深度学习
动手学深度学习Vol3 | 经典卷积神经网络实现 在初等卷积神经网络中,我们可以看出从平移不变和缩放不变性质而得到的卷积性质的基础上,在上个世纪诞生的LeNet成功实现与之前不同的路径,在GPU诞生之后,新的网络AlexNet、VGG、NiN、GoogLeNet、Residual Net、DenseNet逐渐发展。卷积神经网络从变深变多,逐渐到变成块以及一些trick的增加。 0x01 introduction1.1 PyTorch之前在讲座中听 2024-04-29 算法基础 #深度学习 #CV #李沐
动手学深度学习 Vol2 | 初等卷积神经网络实现 上一篇文章中介绍一个基本的机器学习模型线性回归实现的整个过程,将其步骤分为八个部分。之后D2L中介绍了soft Max、MLP等简单的模型。这里迈向深度学习,利用简单的卷积神经网络来介绍深度学习API的使用过程,从零开始搭建模型,将其分为数据集预处理、构建模型和训练及评估三个步骤。 0x01 Introduction of CNN1.1 卷积的由来我们可以将MNIST数据集中的输入变量(28,28 2024-04-29 算法基础 #深度学习 #CV #李沐 #LeNet
动手学深度学习 Vol1 | 线性回归实现 在CS229中主要关注的是一些传统机器学习的模型,包括广义线性模型(GLM)包含的Logistic Regression、Softmax Regression,生成模型的高斯判别式、Decision Tree、Support Vector Machine、浅层神经网络;侧重于对于理论的介绍。李沐课程中对于实际操作的代码实现过程给出了详细的介绍,是非常有意思的。其实整个学习过程的框架无论是简单的逻辑 2024-04-29 算法基础 #机器学习 #深度学习 #李沐
计算机网络 Vol5 | 完整的 web 请求过程 摘要应用层协议 [计算机网络学习笔记 – 应用层协议](https://blog.tjdata.site/2022/06/18/计算机网络-02-Chapter02 应用层协议/) 万维网 HTTP Proxy 电子游戏 SMTP POP3IMAP 局域网IP地址分配 DHCP 域名解析 DNS 网络下载 P2P 流媒体 CDN 运输层协议 [计算机网络学习笔记 – 运输层协议](htt 2024-04-29 计算机科学 #计算机网络 #web 请求
Imagenet-classification-with-deep-convolutional-neural-networks LeNet和AlexNet是从传统手工特征提取SIFI、HOG等向深度卷积神经网络转变的过渡期。 NIPS-2012-imagenet-classification-with-deep-convolutional-neural-networks-Paper.pdf 0x01 Abstract训练一个deep convolutional nerual network来区分ImageNet的LSVRC 2024-04-29 算法基础 #Paper 阅读 #CV
GUI 的历史和 macOS 窗口机制 本次主要想总结一些目前使用的GUI界面,以及macOS界面中的窗口和应用程序的概念。首先对于一个新的东西了解之前是采用浏览引擎,从百度到Google,或者新生代的duckduckgo等等;但是因为互联网的垃圾太多,自己去寻找的过程也是挑挑拣拣的过程,直到发现wiki 百科。它可以更清晰的说明一个领域 0x01 引言:从Vscode引起的macOS应用和窗口的疑惑macOS的文档(Document) 2024-04-29 生活杂谈 #GUI #Apple #桌面管理