机器学习笔记(2)
机器学习的定义,简单来说就是 数据 -> 模型(结论 / 规律) -> 预测
完整来说是:从数据中获得模型,从模型中对未知数据进行预测。
人类从大量的日常经验中归纳规律,当面临新的问题的时候,就可以利用以王总结的规律去分析现实情况,采取最佳策略。
同理,机器从大量的数据中进行训练,得出模型。对未知数据进行预测。
以猫狗识别示例,给计算机大量的猫和狗的照片(数据)。并且标记哪些是猫,哪些是狗。让计算机进行训练得出模型(辨别猫和狗的规律)。当遇到新的图片,就能让计算机自动分辨哪个是猫、哪个是狗。
从数据(房屋的各种讯息),自动分析获得模型(判断房屋价格的规律),从而使机器拥有预测房屋价格的能力。
数据集的构成
历史数据的格式应该是:特征值 + 目标值。例如以下房屋的各种讯息
房子面积 | 房子位置 | 房子楼层 | 房子朝向 | 目标值 |
---|---|---|---|---|
80 | 9 | 3 | 0 | 80 |
100 | 9 | 5 | 1 | 120 |
80 | 10 | 3 | 0 | 100 |
注:
- 对于每一行数据我们可以称之为样本
- 有些数据集可以没有目标值,根据特征值分成一堆
机器学习算法分类定义
对于机器学习,我们需要特征值和目标值。
比如说识别猫和狗,特征值就是图片、目标值就是“猫”或“狗”。目标值就是类别。目标值是类别(离散型数据)的话,则这个问题属于分类问题
而对房屋价格进行预测,特征值就是房屋信息、目标值就是房屋的价格。目标值就是具体的值。目标值是具体的值(连续型数据)的话,则这个问题属于回归问题
目标值为无的话,则这个问题属于无监督学习,没有一个目标去监督。
所以从上,我们可以将机器学习算法分为两类
类型 | 问题类型 | 目标值特点 |
---|---|---|
监督学习 | 分类 | 离散型数据 |
回归 | 连续型数据 | |
无监督学习 | 聚类 | 无 |
练习
- 预测明天的气温是多少度?回归
- 预测明天是阴天、晴天还是雨天?分类
- 人脸年龄预测?不确定,具体看怎么定义年龄(确切年龄还是年龄层),回归 / 分类
- 人脸识别?分类
机器学习算法分类
- 监督学习(Supervised Learning)预测
- 定义:输入数据是由输入特征值和目标值所组成。函数的输出可以是一个连续的值(称为回归)、或者输出是有限个离散值(称为分类)
- 分类 - k-邻近算法、贝叶斯分类、决策树与随机森林、逻辑回归[注1]
- 回归 - 线性回归、岭回归
- 无监督学习(Unsupervised Learning)
- 定义:输入数据是由输入特征值所组成
- 聚类 - k-means
注释
[注1] 逻辑回归本质上是线性回归在 sigmoid 函数上的映射,通过设定某一个阈值,超过这个阈值被标为 1,小于这个阈值被标为 0,所以是分类问题
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 麦甜怪圈 Xiaomai Circle!