Chenlong's blog
  • 首页
  • 归档
  • 分类
  • 标签
  • 关于

Combining_Reinforcement_Learning_and Constraint_Programming_for_Combinatorial Optimization

将RL嵌入到现有的框架当中来保证效率和完全性,非常Fancy! https://arxiv.org/abs/2006.01610AbstractCombinatorial Optimization 应用广泛:从航空领域、交通规划甚至到经济学中,它的目标是在有限的解空间中找到最优解(find an optimal solution among a finite set of possibilitie
2024-04-29
算法基础
#深度学习 #强化学习 #运筹优化 #paper 阅读

流程图库 Mermaid 总结

关于流程图的绘制中有很多工具,比如微软的visio 或者 PowerPoint、贝尔的Graphviz、Lucidchart、OmniGraffle、Draw.io、processOn、Latex的tikZ;但是这种基于图形界面的操作往往会受限于人本身的不精确导致不好看。所以希望借助代码生成流程图来尽可能保持协调一致的美观。 0x01 使用教程可以直接在Typora中使用,只需要输入即可 1```
2024-04-29
计算机科学
#JS #流程图库 #绘图

GIT 管理的常见操作总结

从Git - Branches in a Nutshell中看Git的一些常见操作,主要是设计理念和本地的操作。更复杂的远程协作和项目管理后续给出。 Git PRO What is git分布式版本控制系统(具有很多优点巴拉巴拉) 几个显著的技术上的特点: snapshot,not differences,no delta- based system Git thinks of tis data
2024-04-29
计算机科学
#版本控制系统 #GIT #阶段总结

官方文档 pandas 的阅读和感悟

官方文档是开发者对自己代码的解释。对于成熟的框架,官方文档可以最准确、权威的资料。如何阅读英文的官方文档一直是作为Coder weaker和English weaker的心魔,这里以Pandas文档为例子,尝试给出自己对于阅读官方文档、官方文档的查询工具、代码注释和Pandas文档的总结。 0x01 Why 阅读官方文档对于质量比较高的项目,其官方文档往往能反映开发者的最直接的思想,而互联网上经过
2024-04-29
程序设计
#Python #文档阅读

Everything is Connected Graph Neural Networks

在许多地方,Graph是获取信息的主要形式。因为无论在自然界或者是人造系统中通常需要用图结构表示。常见的重要例子包括分子结构、社交网络、交通路网。这被一些关键的科研和公司所了解,并在交通流预测、药物发芽、社交媒体分析和推荐系统中影响。更进一步,之前机器学习在:图片、文本、语音分析都可以看作是一种特殊的Graph representation learning。因此这些领域之间会有可以相互借鉴的地
2024-04-29
算法基础
#paper 阅读 #gnn #图神经网络

CS229 机器学习 vol11 | 课后作业 2

Problem set00 是关于线性代数和多元微积分学的基本知识,Problem set 01主要是监督学习。作业要求最好使用LaTex进行编写,同时需要将library保存到environment.yml文件中,并保证run.py脚本可以正常运行。 0x01 线性分类(逻辑回归和广义线性模型)1.1 问题回顾Linear classifiers ( logistic regression an
2024-04-29
算法基础
#机器学习 #CS229 #课后作业

CS229 机器学习 Vol10 | 课后作业 1

CS229的homework之前一直没有写,趁这个寒假结束掉它!如有错误欢迎指正! 0x01 Gradients and Hessians:求导和海森矩阵1.1 定义回顾 多元函数一阶导 多元函数二阶导 Symmetric: 对称矩阵 1.2 问题 问题 1.3 解答(1)∇𝑓(𝑥)=𝐴𝑥+𝑏 (2)∇𝑓(𝑥)=𝑔′(ℎ(𝑥))∇ℎ(𝑥) (3)∇2�
2024-04-29
算法基础
#机器学习 #CS229 #课后作业

Rainbow_Combining_Improvements_in_Deep_Reinforcement_Learning categories

作者:Hessel, M., Modayil, J., Van Hasselt, H., Schaul, T., Ostrovski, G., Dabney, W., … & Silver, D. 实验室:Google DeepMind 论文地址:https://arxiv.org/pdf/1710.02298 发表: In Thirty-second AAAI conference o
2024-04-29
算法基础
#强化学习 #Paper 阅读

CS285 深度强化学习 Vol8 | Q 函数

从Policy gradient,到Actor- critic,我们尝试丢弃policy,从AC到Q- iteration或者Q- learning我们彻底丢弃Policy,但是遇到不能收敛的问题。现在我们尝试改进Q- learning来实现想要的功能 0x01 Q- learning中的问题上次从理论的角度看出online Q iteration很难收敛,更直观的看待问题我们会发现有以下几点的原
2024-04-29
算法基础
#深度学习 #强化学习 #CS285 #动作状态价值

CS285 深度强化学习 Vol7 | 值函数

在经过Lecture04介绍RL的基本概念之后,Lecture05介绍基于policy的方法,我们直接利用return的梯度进行策略学习,之后我们尝试利用Q或者V来改进policy evaluation步骤,那么我们是否可以直接抛弃参数化的梯度(parameterized policies),转向仅仅利用Q或者V进行RL 0x01 抛弃Actor- critic中的Actor1.1 回顾Actor
2024-04-29
算法基础
#深度学习 #强化学习 #CS285 #Q函数 #价值学习
123456…10

搜索

Hexo Fluid
总访问量 次 总访客数 人