Mitchell 机器学习读后反思
书籍的相关基本信息如下👇,我所读的版本的出版年份2009.06,从时间上来看里面的内容相对比较传统,
机器学习导论(原书第2版)book.douban.com/subject/25881740/
从中也可以看出作者对于机器学习的一些理解,作者从监督学习、贝叶斯决策理论、参数方法、多元方法、维度规约、聚类、非参数方法、决策树、线性判别式、多层感知器、局部模型、隐马尔可夫模型、分类算法评估和比较、组合多学习器以及增强学习等,结合统计学、模式识别、神经网络、人工智能、信号处理、控制和数据挖掘等不同领域对机器学习作出来论述
01 个人感悟
从之前传统的初高中的知识,在到大学之后的一些课程学习,其学习范式都认定在一个课程范围之类(或者说是学科体系中)研究方法都具有“第一性定理”,类似的哲学思想是:
总会认为在一个学科中,我们可以回归事物的最基本的条件,将其拆分成为基本的元素,从最基本最无可替代的原理出发来研究问题、思考问题、学习问题最终达到理解并熟练解决问题的能力
但是在机器学习的领域,首先是关于机器学习的基本概念或者是学习的本质尚不清楚,这对于初学者比如我产生来巨大的困惑,很难有一种决策的范式,从这本的角度我们能看出其对于多种学科的不同角度来试图理解并说明:what is 机器学习
但是不同的人的理解是不同的,有的人可能认为机器学习方法中特征提取重要、可能有的人认为贝叶斯是重点、可能认为设计一个严谨的实验过程是重点、可能完整的评价一个过程是重点、可能各种算法实例是重点,这些都是在每个人的看法这些都没有错,都是所有人从自己的角度展开讨论对于机器学习的看法,因此在之后的学习过程中要注意这方面,因为每个人出的书、讲的课都是有着自己的见解,要认清楚他们的共性和差异
- 从实验流程的角度看,每个机器学习模型都会设计的范式包括:
个人看法
- 由此引发的不同内容 数据属性:binary,nominal,ordinal,numerical,ratio ,etc 数据描述:mean、std、var、mode ,etc,参数估计-极大似然估计、参数估计-贝叶斯估计 数据距离:euclidean、cosine、hamming、Manhattan、minkowski、chebyshev、jaccard、haversine、Sørensen-Dice 数据预处理:缺失值相关性填补、维度规约-PCA、维度规约-LAD、维度规约-FA 数据特征:(待定)比如人脸识别的Harris特征、或者SIFT特征 选择模型:(待定)分类、回归、聚类、增强学习等,从训练角度的监督和非监督、从组合的角度弱学习和复杂学习、从复杂程度描述VC维、从模式分为生成模型和判别模型 目标函数和损失函数:(待定)bias/variance;从结构风险最小或者经验风险最小分为MSE、MAPE、Entropy,gini,正则化 求解方法:梯度下降、牛顿法、模拟退火、遗传算法等 性能评估:各种指标AUC、MAP、F1、速度、鲁棒性
- 从机理的方法 统计学中的从特殊到一般的描述的inference,其中学习成为estimation,分类成为discrimination analysis,到工程学中的pattern recognization等多个领域中不同研究其侧重点,来在统计学、模式识别、神经网络、信号处理、控制、人工智能以及数据挖掘中不同领域汇总出自己的方法论和途径来尝试使得机器来学习一定的数据并构建一个有用的系统,从数据中induction,并构建模型来尝试deduction
02 关于本书
笔记如图
02.1
最欣赏的是之前给出机器学习中基本原则
triple trade-off:
- 拟合数据的假设的复杂性
- 训练数据的总量
- 在新例子上的泛化误差
基本范式
- model g(x∣θ),g()表示假设类,而θ是假设类汇总的一个假设,模型由机器学习胸的设计者根据其应用知识背景决定,参数由学习算法,利用取样于实际应用的训练集来进行调整
- object and loss functionL(‘)用于计算预期输出和给定参数值对于近似之间的误差,逼近误差approximation error或者loss是每个单例的损失和
- optimization precedure 最优化问题是用来求解最小化近似误差的θ∗,常见的优化算法可能有基于梯度的方法、模拟退火的方法、遗传方法等
02.2:不足
过于强调贝叶斯估计
作者尝试从两个角度来认识机器学习,
- 一种从方法的observation的检测方法
- 一个从贝叶斯出发的estimation的估计方法