机器学习主要术语

什么是（监督式）机器学习？简单来说，它的定义如下：

下面我们来了解一下机器学习的基本术语。

特征

在简单线性回归中，特征是输入变量，即 x 变量。简单的机器学习项目可能会使用单个特征，而比较复杂的机器学习项目可能会使用数百万个特征，按如下方式指定：

{x1,x2,…xN}

在垃圾邮件检测器示例中，特征可能包括：

样本是指数据的特定实例：x。（我们采用粗体 x 表示它是一个矢量。）我们将样本分为以下两类：

有标签样本同时包含特征和标签。即：

1	labeled examples: {features, label}: (x, y)

我们使用有标签样本来训练模型。在我们的垃圾邮件检测器示例中，有标签样本是用户明确标记为“垃圾邮件”或“非垃圾邮件”的各个电子邮件。例如，下表显示了从包含加利福尼亚州房价信息的数据集中抽取的 5 个有标签样本：

housingMedianAge （特征）

totalRooms （特征）

totalBedrooms （特征）

medianHouseValue （标签）

5612

1283

66900

7650

1901

80100

720

174

85700

1501

337

73400

1454

326

65500

无标签样本包含特征，但不包含标签。即：

1	unlabeled examples: {features, ?}: (x, ?)

在使用有标签样本训练了我们的模型之后，我们会使用该模型来预测无标签样本的标签。在垃圾邮件检测器示例中，无标签样本是用户尚未添加标签的新电子邮件。

模型定义了特征与标签之间的关系。例如，垃圾邮件检测模型可能会将某些特征与“垃圾邮件”紧密联系起来。我们来重点介绍一下模型生命周期的两个阶段：

训练表示创建或学习模型。也就是说，您向模型展示有标签样本，让模型逐渐学习特征与标签之间的关系。
推断表示将训练后的模型应用于无标签样本。也就是说，您使用训练后的模型来做出有用的预测 (y’)。例如，在推断期间，您可以针对新的无标签样本预测 medianHouseValue。

回归模型可预测连续值。例如，回归模型做出的预测可回答如下问题：

分类模型可预测离散值。例如，分类模型做出的预测可回答如下问题：