Machine Learning

机器学习

详细介绍机器学习中出现的基本术语,适合小白入门

基本术语

算法

“算法” 是指从数据中学得 “模型” 的具体方法,例如线性回归、对数几率回归、决策树等。

“算法” 产出的结果称为 “模型”,通常是具体的函数或者可抽象地看作为函数,例如一元线性回归算法产出的模型即为形如 f(x) = wx + b 的一元一次函数。

不过由于严格区分这两者的意义不大,因此多数文献和资料会将其混用,当遇到这两个概念时,其具体指代根据上下文判断即可。

样本

也称为 “示例”,是关于一个事件或对象的描述。

一个 “色泽青绿,根蒂蜷缩,敲声脆响” 的西瓜用向量来表示即为:x = (青绿; 蜷缩; 清脆)

向量中的各个维度称为 “特征” 或者 “属性”

向量中的元素用分号 “;” 分隔时表示此向量为列向量,用逗号 “,” 分隔时表示为行向量

标记

机器学习的本质就是在学习样本在某个方面的表现是否存在潜在的规律,我们称该方面的信息为 “标记”

标记通常也看作为样本的一部分,因此,一个完整的样本通常表示为 (x, y)

  • 一条西瓜样本:x = (青绿; 蜷缩; 清脆),y = 好瓜

  • 一条房价样本:x = (1所),y = 1万 / m^2

样本空间

也称为 “输入空间” 或 “属性空间“。由于样本采用的是标明各个特征取值的 ”特征向量“ 来进行表示,根据线性代数的知识可知,有向量便会有所在的空间,因此称表示样本的特征向量所在的空间为样本空间,通常用花式大写的 X 表示。

标记空间

标记所在的空间称为 ”标记空间“ 或 ”输出空间“,数学表示为花式大写的 Y

机器学习任务

根据标记的取值类型不同,可将机器学习任务分为以下两类:

  • 当标记取值为离散型时,称此类任务为 ”分类“,例如学习西瓜是好瓜还是坏瓜、学习猫的图片是白猫还是黑猫等。当分类的类别只有两个时,称此类任务为 ”二分类“,通常称其中一个为 ”正类“,另一个为 ”反类“ 或 ”负类“;当分类的类别超过两个时,称此类任务为 ”多分类“。
  • 当标记取值为连续型时,称此类任务为 ”回归“,例如学习预测西瓜的成熟度、学习预测未来的房价等。

根据是否有用到标记信息,可将机器学习任务分为以下两类:

  • 模型训练阶段有用到标记信息时,称此类任务为 ”监督学习“。
  • 在模型训练阶段没用到标记信息时,称此类任务为 ”无监督学习“。

数据集

数据集通常用集合来表示,令集合 D = {x1, x2, …, xm} 来表示包含 m 个样本的数据集,一般同一份数据集中的每个样本都含有相同个数的特征。

模型

机器学习的一般流程如下:

首先收集若干样本(假设此时有 100 个),然后将其分为训练样本(80 个)和测试样本(20 个),其中 80 个训练样本构成的集合称为 ”训练集“, 20 个测试样本构成的集合称为 ”测试集“,接着选用某个机器学习算法,让其在训练集上进行 ”学习“(或称为 ”训练“),然后产出得到 ”模型“(或称为 ”学习器“),最后用测试集来测试模型的效果。

执行以上流程时,表示我们已经默认样本的背后是存在某种潜在的规律,我们称这种潜在的规律为 ”真相“ 或者 ”真实“,例如样本是一堆好西瓜和坏西瓜时,我们默认的便是好西瓜和坏西瓜背后必然存在某种规律能将其区分开。

当我们应用某个机器学习算法来学习时,产出得到的模型便是该算法所找到的它自己认为的规律,由于该规律通常并不一定就是所谓的真相,所以也将其称为 ”假设“。通常机器学习算法都有可配置的参数,同一个机器学习算法,使用不同的参数配置或者不同的训练集,训练得到的模型通常都不同。

泛化

由于机器学习的目标是根据已知来对未知做出尽可能准确的判断,因此对未知事物判断的准确与否才是衡量一个模型好坏的关键,我们称此为 ”泛化“ 能力。

分布

此处的 ”分布“ 指的是概率论中的概率分布,通常假设样本空间服从一个未知 ”分布“ D,而我们收集到的每个样本都是独立地从该分布中采样得到,即 ”独立同分布“。通常收集到的样本越多,越能从样本中反推出 D 的信息,即越接近真相。

归纳偏好

在 ”房价预测“ 的例子中,当选用一元线性回归算法时,学得的模型是一元一次函数,当选用多项式回归算法时,学得的模型是一元二次函数,所以不同的机器学习算法有不同的偏好,我们称为 ”归纳偏好“。

这两个算法学得的模型哪个更好呢?

著名的 ”奥卡姆剃刀“ 原则认为 ”若有多个假设与观察一致,则选最简单的那个“,但是何为 ”简单“ 便见仁见智了,如果认为函数的幂次越低越简单,则此时一元线性回归算法更好,如果认为幂次越高越简单,则此时多项式回归算法更好,因此该方法其实并不 ”简单“,所以不常用,而最常用的方法则是基于模型在测试集上的表现来评判模型之间的优劣。

总结

数据决定模型的上限,而算法则是让模型无限逼近上限

数据决定模型效果的上限:

其中数据是指从数据量和特征工程两个角度考虑。从数据量的角度来说,通常数据量越大模型效果越好,因为数据量大即表示累计的经验多,因此模型学习到的经验也多,自然表现效果越好。

例如如果训练集中含有相同颜色但根蒂不蜷缩的坏瓜,模型 a 学到真相的概率也会增大;从特征工程的角度来说,通常对特征数据化越合理,特征收集越全越细致,模型效果通常越好,因为此时模型更容易学得样本之间潜在的规律。例如学习区分亚洲人和非洲人时,此时样本即为人,在进行特征工程时,如果收集到每个样本的肤色特征,则其他特征如年龄、身高和体重等便可省略,因为只需靠肤色这一特征就足以区分亚洲人和非洲人。

算法则是让模型无限逼近上限:

是指当数据相关的工作已准备充分时,接下来可用各种可适用的算法从数据中学习其潜在的规律进而得到模型,不同的算法学习得到的模型效果自然有高低之分,效果越好则越逼近上限,即逼近真相。


Machine Learning
https://www.renkelin.vip/2024/10/12/ML/
Author
Kolin
Posted on
October 12, 2024
Licensed under