官方文档 pandas 的阅读和感悟 官方文档是开发者对自己代码的解释。对于成熟的框架,官方文档可以最准确、权威的资料。如何阅读英文的官方文档一直是作为Coder weaker和English weaker的心魔,这里以Pandas文档为例子,尝试给出自己对于阅读官方文档、官方文档的查询工具、代码注释和Pandas文档的总结。 0x01 Why 阅读官方文档对于质量比较高的项目,其官方文档往往能反映开发者的最直接的思想,而互联网上经过 2024-04-29 程序设计 #Python #文档阅读
Everything is Connected Graph Neural Networks 在许多地方,Graph是获取信息的主要形式。因为无论在自然界或者是人造系统中通常需要用图结构表示。常见的重要例子包括分子结构、社交网络、交通路网。这被一些关键的科研和公司所了解,并在交通流预测、药物发芽、社交媒体分析和推荐系统中影响。更进一步,之前机器学习在:图片、文本、语音分析都可以看作是一种特殊的Graph representation learning。因此这些领域之间会有可以相互借鉴的地 2024-04-29 算法基础 #paper 阅读 #gnn #图神经网络
CS229 机器学习 vol11 | 课后作业 2 Problem set00 是关于线性代数和多元微积分学的基本知识,Problem set 01主要是监督学习。作业要求最好使用LaTex进行编写,同时需要将library保存到environment.yml文件中,并保证run.py脚本可以正常运行。 0x01 线性分类(逻辑回归和广义线性模型)1.1 问题回顾Linear classifiers ( logistic regression an 2024-04-29 算法基础 #CS229 #机器学习 #课后作业
CS229 机器学习 Vol10 | 课后作业 1 CS229的homework之前一直没有写,趁这个寒假结束掉它!如有错误欢迎指正! 0x01 Gradients and Hessians:求导和海森矩阵1.1 定义回顾 多元函数一阶导 多元函数二阶导 Symmetric: 对称矩阵 1.2 问题 问题 1.3 解答(1)∇𝑓(𝑥)=𝐴𝑥+𝑏 (2)∇𝑓(𝑥)=𝑔′(ℎ(𝑥))∇ℎ(𝑥) (3)∇2� 2024-04-29 算法基础 #CS229 #机器学习 #课后作业
Rainbow_Combining_Improvements_in_Deep_Reinforcement_Learning categories 作者:Hessel, M., Modayil, J., Van Hasselt, H., Schaul, T., Ostrovski, G., Dabney, W., … & Silver, D. 实验室:Google DeepMind 论文地址:https://arxiv.org/pdf/1710.02298 发表: In Thirty-second AAAI conference o 2024-04-29 算法基础 #强化学习 #Paper 阅读
CS285 深度强化学习 Vol8 | Q 函数 从Policy gradient,到Actor- critic,我们尝试丢弃policy,从AC到Q- iteration或者Q- learning我们彻底丢弃Policy,但是遇到不能收敛的问题。现在我们尝试改进Q- learning来实现想要的功能 0x01 Q- learning中的问题上次从理论的角度看出online Q iteration很难收敛,更直观的看待问题我们会发现有以下几点的原 2024-04-29 算法基础 #CS285 #强化学习 #深度学习 #动作状态价值
CS285 深度强化学习 Vol7 | 值函数 在经过Lecture04介绍RL的基本概念之后,Lecture05介绍基于policy的方法,我们直接利用return的梯度进行策略学习,之后我们尝试利用Q或者V来改进policy evaluation步骤,那么我们是否可以直接抛弃参数化的梯度(parameterized policies),转向仅仅利用Q或者V进行RL 0x01 抛弃Actor- critic中的Actor1.1 回顾Actor 2024-04-29 算法基础 #CS285 #强化学习 #深度学习 #Q函数 #价值学习
CS285 深度强化学习 Vol5 | Policy gradient 本节课的目标是搞明白Policy gradient一类的REINFORCEMENT方法,并且理解背后的局限性,然后知道为什么textbook很容易讲清楚,但是在实践中不行的原因。之后从Causality和Baseline两种方法来降低On- policy PG的方差。并给出结合IS(important sampling)的Off policy的梯度方法。最后利用代码实现RL里面的hello wor 2024-04-29 算法基础 #强化学习 #深度学习 #梯度提升
CS285 深度强化学习 Vol6 | Actor Critic 主要介绍演员评论家过程,从最基础的Policy Gradient中剖析如何拟合Policy Evaluation的部分,并推导得到Actor- Critic算法。可以看出从之前直观的Policy,到利用state- value或者action- state- value进行近似。这个过程中采样结果与理论推导的权衡贯穿理论推导过程。在这个基础上也会引来下一节Lecture07关于value func 2024-04-29 算法基础 #CS285 #强化学习 #深度学习 #Actor critic 算法
CS285 深度强化学习 Vol4 | 算法分类 Sergev Levine的课讲强化学习我唯一听得懂不同强化学习究竟有哪些分类,同时是如何进行分类的。本次Lecture的目标是完善定义Definition与记号notation,并认清楚RL objective,并给出具体强化学习算法的总结。 0x01 Definition of a MDP1.1 Recap RL with imitation learning我们在之前的Lecture02-S 2024-04-29 算法基础 #CS285 #强化学习 #深度学习 #导论