什么是机器学习?

机器学习是将数据转化为见解的一种方式。我们利用计算机的能力来分析过去的例子,建立一个模型,可以预测新例子的结果。

我们每天都会遇到机器学习模型。例如,当Netflix向您推荐一部节目时,他们使用基于您和其他用户观看记录的模型来预测您可能喜欢的内容。当亚马逊为商品选择价格时,他们使用基于类似商品过去销售情况的模型。当您的信用卡公司因为可疑活动而给您打电话时,他们使用基于您过去活动的模型来识别异常行为。

机器学习可用于创建聊天机器人、检测垃圾邮件或图像识别。

通过这系列博文,能够学到什么

我们将使用 pandas、numpy、matplotlib 和 scikit-learn。

  • Pandas 用于读取数据和数据处理
  • numpy 用于数值数据的计算,
  • matplotlib 用于绘制数据图表,
  • scikit-learn 用于机器学习模型。

这些包都非常庞大,但我们将重点介绍我们将使用的函数。我们还将回顾一些基础统计知识,因为它是机器学习的基础。

机器学习的分类

在机器学习中,我们谈论监督学习和无监督学习。监督学习(Supervised Learning)是基于过去数据的已知目标(例如,预测房屋的售价),而无监督学习(Unsupervised Learning)是当没有已知的过去答案时(例如,确定餐厅评论中讨论的主题)。

在本课程中,我们将专注于监督学习。在监督学习中,有分类(Classification)和回归(Regression)问题。回归是预测数值(例如,预测房屋的售价),而分类是预测某物属于哪个类别(例如,预测借款人是否会违约)。

我们将专注于分类问题,即预测某物属于哪个类别。

我们的例子将包括:

  • 预测谁会在泰坦尼克号事故中生存
  • 从图像中确定手写数字
  • 使用活检数据来分类肿块是否为癌症

我们将使用许多流行的技术来解决这些问题。在接下来的模块中,我们将更详细地介绍每一种技术:

  • 逻辑回归(Logistic Regression)
  • 决策树(Decision Trees)
  • 随机森林(Random Forests)
  • 神经网络(Neural Networks)

在本课程结束时,您将能够使用Python构建多个不同的模型来处理分类数据集,并确定适用于给定问题的最佳模型。

机器学习可以用来解决各种问题。本课程将专注于监督学习和分类。

除了监督学习(Supervised)和无监督学习(Unsupervised)之外,还有两种进一步的类型,即强化学习(Reinforcement)和半监督学习(Semisupervised)。

半监督学习是指处理部分标记的数据,通常是大量未标记和少量已标记的数据。Google 相册是其中的最佳例子。只需几张“你”的照片,它就能在未来的图像中识别“你”。它可以涉及监督和无监督技术的结合。

强化学习则大不相同,它致力于构建最佳模型(专家也称之为最佳可行策略,Best feasible strategy),以奖励系统(代理、机器人、设备等)在预测正确时,并在做出错误动作后对其进行惩罚。

练习

如果分类问题的目标具有分类值,这意味着它有多少个可能的值?

  • 无限
  • 有限
  • 连续

有限,因为在机器学习中,我们有两种类型的分类,监督(Supervised)和无监督(Unsupervised)。

监督意味着,例如,你有10栋房子和它们的价格,你想要卖掉你的房子,因为你已经知道你的房子价格,可以通过与其他房屋比较来确定。这是已经属于一组的分类。

但是,无监督的分类中,我们不知道房屋的价格,甚至不知道房屋的大小,这是无监督的。

分类总是有限的。