线性模型

本文为自己学习《西瓜书》时做的一些笔记,方便知识点的梳理复习。

线性模型

  • 定义: 学的一个通过属性的线性组合来进行预测的函数。

  • 形式: 函数/向量

  • 优点:

    • 模型简单,已于建模
    • 蕴含着机器学习中一些基本思想,一些强大的非线性模型可以通过引入层级结构或高为映射得到。如lny 与 x函数之间的关系。
    • 向量w,可以直观表达各属性在预测中的重要性。
  • 种类

    • 回归任务的线性模型
    • 二分类任务
    • 多分类任务

线性回归

  • 目标: 试图学的一个模型尽可能准确的预测实值输出标记y
  • 属性值的转化:
    • 属性值间存在序关系,则可以转化为连续值
    • 不存在序关系,通常将k个属性转化为k维向量

一元线性回归函数

  • 线性方程如何求解
    • 求解的关键在于:如何使f(x) ≈ y尽可能准确
    • 所以,w,b的取值,应该在min∑(f(x)-y)^2。(这里使用的是均方误差,因为它是回归任务中最常用的性能度量),该方法称 模型的最小二乘“参数估计”
    • 求解方法: 求偏导,联立方程

多元线性回归函数

  • 求解公式,
  • 现实中,方程有唯一解的条件一般不满足,会出现多个解。 对于如何选择,这是由学习算法的归纳偏好决定的,最常见的方法是引入正则化项。

广义线性模型

对数几率回归

概念区分

  • 线性模型的回归学习:前面我们讨论了吸纳型模型的回归学习,即预测值是连续的
  • 线性模型的分类学习: 分类指预测值是离散的,对于这类任务,模型构建会使用到广义线性模型
  • 二分类任务

    • 特点: 标记输出只有0/1
    • 所以对z=wx(T)+b的转化,最理想的是“单位阶跃函数”,即分段函数。
      • 单位阶跃函数
        • 函数为(3.16),解释为:若预测值大于0,就判为正例,小于0则判为反例,预测值为临界值0则可任意判别。
        • 局限: 并不连续,所以我们想找一个一定成都上近似单位阶跃函数的“替代函数”,并希望它单调可微。————对数几率函数
  • 对数几率函数

    • 特点
      • 是一种“Sigmoid”函数,即形似S的函数
      • 作用: 将z值转化为0/1,并在x=0处变化很陡
      • y/1-y,被称为几率,反映了x作为正例的相对可能性
    • 最优解的求法
      • 梯度下降法
      • 牛顿法

线性判别分析(LDA)

  • 思想: 给定训练样例集,设法将样例投影到一条直线事上,使得同类样例的投影尽可能接近,异类投影点尽可能远离;在对新样本进行分类时,将其投影到同样的这条直线上,再根据投影点的位置来确定新样本的类别。

    (即对直线位置的寻找,该直线满足两个条件.1. 同类样例投影尽可能近。2.不同类尽可能远。)

    • 使同类样例投影尽可能近
      • 让同类样例投影点的协方差尽可能小(两样本协方差之和)
    • 使异类样例投影点尽可能远离
      • 通过让类中心之间的距离尽可能大(两样本协方差之差)
    • 同时考虑两者,可得到欲最大化的目标J(差/和)
      • 定义类内散度矩阵和类间散度矩阵,可以重新定义LDA欲最大化的目标J,也被称为Sb和Sw的“广义瑞利商”
  • 如何求解广义瑞利商👈
    拉格朗日乘数法吧…没看懂

  • 将LDA推广到多分类任务。

    • P62,只提到了起取值条件,J最大
    • LDA也常被视为一种监督降维技术

多分类学习

现实中常遇到多分类任务,对于该类问题,我们基于一些基本策略,利用二分类学习器来解决多分类问题。本节的重点为: 拆分策略

  • 基本思路:“拆分法”,即将多分类任务拆为若干二分类任务求解。集体来说,先对问题进行拆分,然后为拆分出的每个二分类任务训练一个分类器;在测试时,对这些分类器的预测结果进行集成以获得最终的多分类结果。 其关键在于如何对多分类任务进行拆分,以及如何对多个分类器进行集成。

拆分策略(经典的有3种)

  • 一对一(OvO)

  • 一对其余(OvR)

    • 需要了解:如何选择正例,反例。 需要的分类器个数
    • 优缺点:
      • OvR分类器数目小于OvO,OvO的储存开销何测试时间要更大
      • 训练时,OvR每个分类器要使用所有的训练样例,而OvO每个分类器只使用2个类的样例。因此,类别很多时,OvO的训练开销更小
      • 对于预测性能,要取决于具体的数据分布,在多数情况下,两者差不多。
  • 多对多(MvM)

    每次将若干类作为正类,若干类作为反类,正反类的构造有特殊的设计。书中主要介绍了一种常用的MvM技术“纠错输出嘛”(EOOC)

    • 主要有两个过程

      • 编码,N个类进行M次划分,每次划分将一部分划为正类,一部分划为分类,进而形成一个二分类训练集;最终共产生M个训练集,可训练出M个分类器。

      • 解码,M个分类器对测试样例进行预测,这些预测标记组成一个编码,将这个预测编码和各自的编码进行比较,返回其中距离最小的。

      • 距离的计算

        • 汉明距离,在信息编码中,两合法编码 编码不同的位数 称为码距,又称汉明距离
        • 欧式距离,空间中两点间的距离。

类别不平衡问题

  • 定义,带来的问题
  • 类别不平衡学习的一个基本策略————再缩放
    • 欠采样,减少一些反例使正反例数目接近
    • 过采样,增加一些正例使正反例数目接近
    • 阈值移动,基于原始数据学习,但用训练好的分类器进行预测时,将公式代入到决策过程中。
  • 各方法的优缺点