线性模型

Posted on 2017-08-05

本文为自己学习《西瓜书》时做的一些笔记，方便知识点的梳理复习。

线性模型

定义：学的一个通过属性的线性组合来进行预测的函数。
形式：函数/向量
优点：
- 模型简单，已于建模
- 蕴含着机器学习中一些基本思想，一些强大的非线性模型可以通过引入层级结构或高为映射得到。如lny 与 x函数之间的关系。
- 向量w，可以直观表达各属性在预测中的重要性。
种类
- 回归任务的线性模型
- 二分类任务
- 多分类任务

线性回归

目标：试图学的一个模型尽可能准确的预测实值输出标记y
属性值的转化：
- 属性值间存在序关系，则可以转化为连续值
- 不存在序关系，通常将k个属性转化为k维向量

一元线性回归函数

线性方程如何求解
- 求解的关键在于：如何使f(x) ≈ y尽可能准确
- 所以，w，b的取值，应该在min∑（f(x)-y)^2。（这里使用的是均方误差，因为它是回归任务中最常用的性能度量），该方法称 模型的最小二乘“参数估计”
- 求解方法：求偏导，联立方程

多元线性回归函数

求解公式，
现实中，方程有唯一解的条件一般不满足，会出现多个解。对于如何选择，这是由学习算法的归纳偏好决定的，最常见的方法是引入正则化项。

广义线性模型

对数几率回归

概念区分

线性模型的回归学习：前面我们讨论了吸纳型模型的回归学习，即预测值是连续的
线性模型的分类学习：分类指预测值是离散的，对于这类任务，模型构建会使用到广义线性模型。

二分类任务
- 特点：标记输出只有0/1
- 所以对z=wx(T)+b的转化，最理想的是“单位阶跃函数”，即分段函数。
  - 单位阶跃函数
    - 函数为（3.16），解释为：若预测值大于0，就判为正例，小于0则判为反例，预测值为临界值0则可任意判别。
    - 局限：并不连续，所以我们想找一个一定成都上近似单位阶跃函数的“替代函数”，并希望它单调可微。————对数几率函数
对数几率函数
- 特点
  - 是一种“Sigmoid”函数，即形似S的函数
  - 作用：将z值转化为0/1，并在x=0处变化很陡
  - y/1-y，被称为几率，反映了x作为正例的相对可能性
- 最优解的求法
  - 梯度下降法
  - 牛顿法

线性判别分析（LDA）

思想：给定训练样例集，设法将样例投影到一条直线事上，使得同类样例的投影尽可能接近，异类投影点尽可能远离；在对新样本进行分类时，将其投影到同样的这条直线上，再根据投影点的位置来确定新样本的类别。

（即对直线位置的寻找，该直线满足两个条件.1. 同类样例投影尽可能近。2.不同类尽可能远。）
- 使同类样例投影尽可能近
  - 让同类样例投影点的协方差尽可能小（两样本协方差之和）
- 使异类样例投影点尽可能远离
  - 通过让类中心之间的距离尽可能大（两样本协方差之差）
- 同时考虑两者，可得到欲最大化的目标J（差/和）
  - 定义类内散度矩阵和类间散度矩阵，可以重新定义LDA欲最大化的目标J，也被称为Sb和Sw的“广义瑞利商”
如何求解广义瑞利商👈
拉格朗日乘数法吧…没看懂
将LDA推广到多分类任务。
- P62，只提到了起取值条件，J最大
- LDA也常被视为一种监督降维技术

多分类学习

现实中常遇到多分类任务，对于该类问题，我们基于一些基本策略，利用二分类学习器来解决多分类问题。本节的重点为： 拆分策略

基本思路：“拆分法”，即将多分类任务拆为若干二分类任务求解。集体来说，先对问题进行拆分，然后为拆分出的每个二分类任务训练一个分类器；在测试时，对这些分类器的预测结果进行集成以获得最终的多分类结果。 其关键在于如何对多分类任务进行拆分，以及如何对多个分类器进行集成。

拆分策略（经典的有3种）

一对一（OvO）
一对其余（OvR）
- 需要了解：如何选择正例，反例。需要的分类器个数
- 优缺点：
  - OvR分类器数目小于OvO，OvO的储存开销何测试时间要更大。
  - 训练时，OvR每个分类器要使用所有的训练样例，而OvO每个分类器只使用2个类的样例。因此，类别很多时，OvO的训练开销更小。
  - 对于预测性能，要取决于具体的数据分布，在多数情况下，两者差不多。
多对多（MvM）

每次将若干类作为正类，若干类作为反类，正反类的构造有特殊的设计。书中主要介绍了一种常用的MvM技术“纠错输出嘛”（EOOC）
- 主要有两个过程
  - 编码，N个类进行M次划分，每次划分将一部分划为正类，一部分划为分类，进而形成一个二分类训练集；最终共产生M个训练集，可训练出M个分类器。
  - 解码，M个分类器对测试样例进行预测，这些预测标记组成一个编码，将这个预测编码和各自的编码进行比较，返回其中距离最小的。
  - 距离的计算
    - 汉明距离，在信息编码中，两合法编码 编码不同的位数 称为码距，又称汉明距离
    - 欧式距离，空间中两点间的距离。

类别不平衡问题

定义，带来的问题
类别不平衡学习的一个基本策略————再缩放
- 欠采样，减少一些反例使正反例数目接近
- 过采样，增加一些正例使正反例数目接近
- 阈值移动，基于原始数据学习，但用训练好的分类器进行预测时，将公式代入到决策过程中。
各方法的优缺点