机器学习的定义,简单来说就是 数据 -> 模型(结论 / 规律) -> 预测

完整来说是:从数据中获得模型,从模型中对未知数据进行预测。

人类从大量的日常经验中归纳规律,当面临新的问题的时候,就可以利用以王总结的规律去分析现实情况,采取最佳策略。

同理,机器从大量的数据中进行训练,得出模型。对未知数据进行预测。


以猫狗识别示例,给计算机大量的猫和狗的照片(数据)。并且标记哪些是猫,哪些是狗。让计算机进行训练得出模型(辨别猫和狗的规律)。当遇到新的图片,就能让计算机自动分辨哪个是猫、哪个是狗。

从数据(房屋的各种讯息),自动分析获得模型(判断房屋价格的规律),从而使机器拥有预测房屋价格的能力。

数据集的构成

历史数据的格式应该是:特征值 + 目标值。例如以下房屋的各种讯息

房子面积 房子位置 房子楼层 房子朝向 目标值
80 9 3 0 80
100 9 5 1 120
80 10 3 0 100

注:

  • 对于每一行数据我们可以称之为样本
  • 有些数据集可以没有目标值,根据特征值分成一堆

机器学习算法分类定义

对于机器学习,我们需要特征值和目标值。

比如说识别猫和狗,特征值就是图片、目标值就是“猫”或“狗”。目标值就是类别。目标值是类别(离散型数据)的话,则这个问题属于分类问题

而对房屋价格进行预测,特征值就是房屋信息、目标值就是房屋的价格。目标值就是具体的值。目标值是具体的值(连续型数据)的话,则这个问题属于回归问题

目标值为的话,则这个问题属于无监督学习,没有一个目标去监督。

所以从上,我们可以将机器学习算法分为两类

类型 问题类型 目标值特点
监督学习 分类 离散型数据
回归 连续型数据
无监督学习 聚类

练习

  1. 预测明天的气温是多少度?回归
  2. 预测明天是阴天、晴天还是雨天?分类
  3. 人脸年龄预测?不确定,具体看怎么定义年龄(确切年龄还是年龄层),回归 / 分类
  4. 人脸识别?分类

机器学习算法分类

  • 监督学习(Supervised Learning)预测
    • 定义:输入数据是由输入特征值和目标值所组成。函数的输出可以是一个连续的值(称为回归)、或者输出是有限个离散值(称为分类)
    • 分类 - k-邻近算法、贝叶斯分类、决策树与随机森林、逻辑回归[注1]
    • 回归 - 线性回归、岭回归
  • 无监督学习(Unsupervised Learning)
    • 定义:输入数据是由输入特征值所组成
    • 聚类 - k-means

注释

[注1] 逻辑回归本质上是线性回归在 sigmoid 函数上的映射,通过设定某一个阈值,超过这个阈值被标为 1,小于这个阈值被标为 0,所以是分类问题