本文为自己学习《西瓜书》时做的一些笔记,方便知识点的梳理复习。
线性模型
定义: 学的一个通过属性的线性组合来进行预测的函数。
形式: 函数/向量
优点:
- 模型简单,已于建模
- 蕴含着机器学习中一些基本思想,一些强大的非线性模型可以通过引入层级结构或高为映射得到。如lny 与 x函数之间的关系。
- 向量w,可以直观表达各属性在预测中的重要性。
种类
- 回归任务的线性模型
- 二分类任务
- 多分类任务
线性回归
- 目标: 试图学的一个模型尽可能准确的预测实值输出标记y
- 属性值的转化:
- 属性值间存在序关系,则可以转化为连续值
- 不存在序关系,通常将k个属性转化为k维向量
一元线性回归函数
- 线性方程如何求解
- 求解的关键在于:如何使f(x) ≈ y尽可能准确
- 所以,w,b的取值,应该在min∑(f(x)-y)^2。(这里使用的是均方误差,因为它是回归任务中最常用的性能度量),该方法称 模型的最小二乘“参数估计”
- 求解方法: 求偏导,联立方程
多元线性回归函数
- 求解公式,
- 现实中,方程有唯一解的条件一般不满足,会出现多个解。 对于如何选择,这是由学习算法的归纳偏好决定的,最常见的方法是引入正则化项。
广义线性模型
对数几率回归
概念区分
- 线性模型的回归学习:前面我们讨论了吸纳型模型的回归学习,即预测值是连续的
- 线性模型的分类学习: 分类指预测值是离散的,对于这类任务,模型构建会使用到广义线性模型。
二分类任务
- 特点: 标记输出只有0/1
- 所以对z=wx(T)+b的转化,最理想的是“单位阶跃函数”,即分段函数。
- 单位阶跃函数
- 函数为(3.16),解释为:若预测值大于0,就判为正例,小于0则判为反例,预测值为临界值0则可任意判别。
- 局限: 并不连续,所以我们想找一个一定成都上近似单位阶跃函数的“替代函数”,并希望它单调可微。————对数几率函数
- 单位阶跃函数
对数几率函数
- 特点
- 是一种“Sigmoid”函数,即形似S的函数
- 作用: 将z值转化为0/1,并在x=0处变化很陡
- y/1-y,被称为几率,反映了x作为正例的相对可能性
- 最优解的求法
- 梯度下降法
- 牛顿法
- 特点
线性判别分析(LDA)
思想: 给定训练样例集,设法将样例投影到一条直线事上,使得同类样例的投影尽可能接近,异类投影点尽可能远离;在对新样本进行分类时,将其投影到同样的这条直线上,再根据投影点的位置来确定新样本的类别。
(即对直线位置的寻找,该直线满足两个条件.1. 同类样例投影尽可能近。2.不同类尽可能远。)
- 使同类样例投影尽可能近
- 让同类样例投影点的协方差尽可能小(两样本协方差之和)
- 使异类样例投影点尽可能远离
- 通过让类中心之间的距离尽可能大(两样本协方差之差)
- 同时考虑两者,可得到欲最大化的目标J(差/和)
- 定义类内散度矩阵和类间散度矩阵,可以重新定义LDA欲最大化的目标J,也被称为Sb和Sw的“广义瑞利商”
- 使同类样例投影尽可能近
如何求解广义瑞利商👈
拉格朗日乘数法吧…没看懂将LDA推广到多分类任务。
- P62,只提到了起取值条件,J最大
- LDA也常被视为一种监督降维技术
多分类学习
现实中常遇到多分类任务,对于该类问题,我们基于一些基本策略,利用二分类学习器来解决多分类问题。本节的重点为: 拆分策略
- 基本思路:“拆分法”,即将多分类任务拆为若干二分类任务求解。集体来说,先对问题进行拆分,然后为拆分出的每个二分类任务训练一个分类器;在测试时,对这些分类器的预测结果进行集成以获得最终的多分类结果。 其关键在于如何对多分类任务进行拆分,以及如何对多个分类器进行集成。
拆分策略(经典的有3种)
一对一(OvO)
一对其余(OvR)
- 需要了解:如何选择正例,反例。 需要的分类器个数
- 优缺点:
- OvR分类器数目小于OvO,OvO的储存开销何测试时间要更大。
- 训练时,OvR每个分类器要使用所有的训练样例,而OvO每个分类器只使用2个类的样例。因此,类别很多时,OvO的训练开销更小。
- 对于预测性能,要取决于具体的数据分布,在多数情况下,两者差不多。
多对多(MvM)
每次将若干类作为正类,若干类作为反类,正反类的构造有特殊的设计。书中主要介绍了一种常用的MvM技术“纠错输出嘛”(EOOC)
主要有两个过程
编码,N个类进行M次划分,每次划分将一部分划为正类,一部分划为分类,进而形成一个二分类训练集;最终共产生M个训练集,可训练出M个分类器。
解码,M个分类器对测试样例进行预测,这些预测标记组成一个编码,将这个预测编码和各自的编码进行比较,返回其中距离最小的。
距离的计算
- 汉明距离,在信息编码中,两合法编码 编码不同的位数 称为码距,又称汉明距离
- 欧式距离,空间中两点间的距离。
类别不平衡问题
- 定义,带来的问题
- 类别不平衡学习的一个基本策略————再缩放
- 欠采样,减少一些反例使正反例数目接近
- 过采样,增加一些正例使正反例数目接近
- 阈值移动,基于原始数据学习,但用训练好的分类器进行预测时,将公式代入到决策过程中。
- 各方法的优缺点