CS285 深度强化学习 Vol6 | 从 gym 开始自己的环境 openAI的gym中提供了很多封装好的环境,在此基础上我们可以使用其来跑通深度强化学习的代码,但是更多的时候我们希望调用算法来解决一个实际问题,因此尝试为定制化的问题转换成为MDP六元组《变量、状态、动作、奖励、状态转移、终止条件》后编程为可以交互的环境即可。本文介绍学习gymnasium和stable- baseline3的学习思路并手动实现一个MyCar的环境。 0x01 巨人的肩膀 :调库 2024-04-29 算法设计 #强化学习 #gym
CS285 深度强化学习 Vol5 | 智能体与搜索 行为流派01_智能体与搜索blog.tjdata.site/posts/9c6b1465.html 根据CS188《Intro to AI》来对搜索策略进行一定的总结 0x01 智能体在人工智能中,核心问题是创建一个理性的智能体(Rational agent),是一个实体通过一些系列的动作(Actions)来实现目标或者是喜好(Goal or perferences),它存在于 2024-04-29 算法基础 #搜索问题 #人工智能 #search problem
工科生研 1 使用MacBook Pro14 深度感受 在研究生使用半年的Macbook Air(2020M1)之后由于存储、屏幕等原因,转向具有诸多优点的MacbookPro14(2021),在深度磨合半年之后介绍这台设备的优点。从工业设计、外部接口、硬件配置、屏幕素质介绍使用感受,并从文件处理、知识管理、系统工具、娱乐角度介绍软件资源,最后给出文件管理和待办管理的工作流。 本文主要介绍2021款MacBook Pro 14inch, 具体的参数规格 2024-04-29 生活杂谈 #apple #MacBook #产品测评
CS229 机器学习Vol13 | EM 算法与 HMM 和 CRF 本文主要介绍EM算法,作为统计学习中可以通过迭代的方式估计含有隐变量模型的方法。同时给出两个典型的例子作为注释并给出相关代码的分析作为注解。 0x01 摘要(个人感悟)对于人工智能三大流派的分析,统计学习、神经网络和行为学习的一些新的感悟。首先统计学习依靠概率统计的知识建立起的模型和神经网络的范式并不完全一样,可能在模型、推理、优化等方面有名称的雷同但两者是完全不同的概念。同时以约束编程或者强化学 2024-04-29 算法基础 #机器学习 #CS229 #EM 算法 #HMM #CRF
Pytorch 官方文档阅读和实现 Torch文档阅读blog.tjdata.site/posts/5ef17af5.html Torch官方文档中最关键的类torch.tensor,最重要的机制autograd,这里对常见的API进行总结 Pytorch 基本教程从组成元素上来看学习Torch主要需要熟悉以下几个概念,个人总结以下几个概念 1. 什么是Tensor?这个是深度学习框架计算的源泉,参考NumPy的 2024-04-29 程序设计 #深度学习 #torch
知识管理的一些想法 https://blog.tjdata.site/posts/d49191c7.htmlblog.tjdata.site/posts/d49191c7.html 作为一枚INFJ,经常会对效率工具进行反思。今天看了一本和知识管理联系不大的《如何有效阅读一本书》,然后对自己现有的知识管理系统中备忘录+日历+提醒事项,配合ShortCut快速输入、Cubox聚集、Notion整理的一套系统进行整理和反 2024-04-29 生活杂谈 #知识管理 #笔记软件 #notion #typora #cubox
Combining_Reinforcement_Learning_and Constraint_Programming_for_Combinatorial Optimization 将RL嵌入到现有的框架当中来保证效率和完全性,非常Fancy! https://arxiv.org/abs/2006.01610AbstractCombinatorial Optimization 应用广泛:从航空领域、交通规划甚至到经济学中,它的目标是在有限的解空间中找到最优解(find an optimal solution among a finite set of possibilitie 2024-04-29 算法基础 #强化学习 #深度学习 #运筹优化 #paper 阅读
流程图库 Mermaid 总结 关于流程图的绘制中有很多工具,比如微软的visio 或者 PowerPoint、贝尔的Graphviz、Lucidchart、OmniGraffle、Draw.io、processOn、Latex的tikZ;但是这种基于图形界面的操作往往会受限于人本身的不精确导致不好看。所以希望借助代码生成流程图来尽可能保持协调一致的美观。 0x01 使用教程可以直接在Typora中使用,只需要输入即可 1``` 2024-04-29 计算机科学 #JS #流程图库 #绘图
GIT 管理的常见操作总结 从Git - Branches in a Nutshell中看Git的一些常见操作,主要是设计理念和本地的操作。更复杂的远程协作和项目管理后续给出。 Git PRO What is git分布式版本控制系统(具有很多优点巴拉巴拉) 几个显著的技术上的特点: snapshot,not differences,no delta- based system Git thinks of tis data 2024-04-29 计算机科学 #版本控制系统 #GIT #阶段总结
官方文档 pandas 的阅读和感悟 官方文档是开发者对自己代码的解释。对于成熟的框架,官方文档可以最准确、权威的资料。如何阅读英文的官方文档一直是作为Coder weaker和English weaker的心魔,这里以Pandas文档为例子,尝试给出自己对于阅读官方文档、官方文档的查询工具、代码注释和Pandas文档的总结。 0x01 Why 阅读官方文档对于质量比较高的项目,其官方文档往往能反映开发者的最直接的思想,而互联网上经过 2024-04-29 程序设计 #Python #文档阅读