无监督机器学习：算法、类型及示例

什么是无监督学习？

无监督学习是一种机器学习技术，用户无需对模型进行监督。相反，它允许模型自行工作，发现以前未检测到的模式和信息。它主要处理无标签数据。

无监督学习算法

无监督学习算法允许用户执行比监督学习更复杂的处理任务。尽管如此，与其它自然学习方法相比，无监督学习可能更不可预测。无监督学习算法包括聚类、异常检测、神经网络等。

无监督机器学习示例

让我们以一个婴儿和她的家庭犬为例来说明无监督学习。

她认识并识别出这只狗。几周后，一位家庭朋友带了一只狗来，试图和婴儿玩耍。

婴儿以前没见过这只狗。但她识别出许多特征（两只耳朵、眼睛、四条腿走路）与她的宠物狗相似。她将新动物识别为狗。这就是无监督学习，您没有被教导，而是从数据（在这种情况下是关于狗的数据）中学习。如果这是监督学习，那么家庭朋友会像上面无监督学习的例子一样告诉婴儿这是一只狗。

为什么需要无监督学习？

以下是使用无监督学习进行机器学习的主要原因：

无监督机器学习可以在数据中发现各种未知的模式。
无监督方法可以帮助您发现可用于分类的特征。
它是在实时进行的，因此所有输入数据都将在学习者在场的情况下进行分析和标记。
从计算机获取无标签数据比获取有标签数据更容易，后者需要手动干预。

聚类类型——无监督学习算法

以下是无监督机器学习算法的聚类类型：

无监督学习问题进一步分为聚类和关联问题。

聚类

聚类是无监督学习中的一个重要概念。它主要处理在未分类数据集合中查找结构或模式。无监督学习聚类算法将处理您的数据，并在数据中找到存在的自然聚类（组）。您还可以修改算法应识别的聚类数量。它允许您调整这些组的粒度。

您可以使用不同类型的聚类：

互斥（划分式）

在此聚类方法中，数据被分组，以便一个数据只能属于一个聚类。

示例：K-means

凝聚式

在此聚类技术中，每个数据都是一个聚类。两个最近聚类之间的迭代合并会减少聚类数量。

示例：层次聚类

重叠式

在此技术中，模糊集用于聚类数据。每个点可能属于两个或更多个聚类，具有不同的隶属度。

在此，数据将与适当的隶属度值相关联。示例：Fuzzy C-Means

概率式

此技术使用概率分布来创建聚类。

示例：以下关键词

“男鞋”。
“女鞋”。
“女士手套”。
“男士手套”。

可以聚类为“鞋子”和“手套”或“男性”和“女性”两个类别。

聚类类型

以下是机器学习的聚类类型：

层次聚类
K-means 聚类
K-NN（k 近邻）
主成分分析
奇异值分解
独立成分分析

层次聚类

层次聚类是一种构建聚类层次结构的算法。它从所有分配到自己聚类的数据开始。在这里，两个接近的聚类将属于同一个聚类。该算法在只剩下一个聚类时结束。

K-means 聚类

K-means 是一种迭代聚类算法，可帮助您在每次迭代中找到最高值。最初，选择所需的聚类数量。在此聚类方法中，您需要将数据点聚类为 k 个组。较大的 k 意味着较小的组，具有相同的粒度。较低的 k 意味着较大的组，粒度较小。

该算法的输出是一组“标签”。它将数据点分配给 k 个组中的一个。在 k-means 聚类中，每个组通过为每个组创建质心来定义。质心就像聚类的核心，它捕获最接近它的点并将它们添加到聚类中。

K-means 聚类进一步定义了两个子组：

凝聚式聚类
树状图

凝聚式聚类

这种类型的 K-means 聚类从固定数量的聚类开始。它将所有数据分配到确切数量的聚类中。此聚类方法不需要聚类数量 K 作为输入。凝聚过程通过将每个数据形成单个聚类来开始。

此方法使用某种距离度量，通过合并过程减少聚类数量（每次迭代一个）。最后，我们得到一个包含所有对象的大聚类。

树状图

在树状图聚类方法中，每个级别都代表一个可能的聚类。树状图的高度显示了两个连接聚类之间的相似度级别。过程的底部越近，它们就越相似，从树状图中找到的组不是自然的，而且通常是主观的。

K-近邻

K-近邻是所有机器学习分类器中最简单的。它与其他机器学习技术不同之处在于它不生成模型。它是一个简单的算法，可以存储所有可用案例，并根据相似性度量对新实例进行分类。

当示例之间存在距离时，它效果很好。当训练集很大时，学习速度很慢，并且距离计算很复杂。

主成分分析

如果您需要更高维度的空间。您需要为该空间选择一个基，并且只选择该基的 200 个最重要的分数。这个基称为主成分。您选择的子集构成了一个比原始空间小的空间。它尽可能地保持数据的复杂性。

关联

关联规则允许您在大型数据库中的数据对象之间建立关联。这项无监督技术旨在发现大型数据库中变量之间的有趣关系。例如，购买新房的人最有可能购买新家具。

其他示例

根据基因表达测量分组的一组癌症患者
根据浏览和购买历史分组的购物者组
根据电影观众评分分组的电影

监督学习与无监督机器学习

以下是监督学习与无监督学习之间的主要区别：

参数	监督机器学习技术	无监督机器学习技术
输入数据	算法使用有标签数据进行训练。	算法应用于无标签数据。
计算复杂度	监督学习是一种更简单的方法。	无监督学习计算复杂。
准确性	高度准确且可靠的方法。	准确性和可靠性较低的方法。

无监督机器学习的应用

无监督学习技术的一些应用：

聚类根据相似性自动将数据集分成组。
异常检测可以发现数据集中的异常数据点。它有助于查找欺诈性交易。
关联挖掘识别数据集中经常一起出现的数据项集。
潜变量模型广泛用于数据预处理。例如，减少数据集中的特征数量或将数据集分解为多个组件。

无监督学习的缺点

您无法获得关于数据排序的精确信息，因为无监督学习中使用的数据是未标签的且未知的。
结果准确性较低是因为输入数据是未知的，并且没有预先由人工标记。这意味着机器需要自己完成。
光谱类别并不总是对应于信息类别。
用户需要花费时间解释和标记分类后的类别。
类别的光谱特性也可能随时间而变化，因此在从一个图像移动到另一个图像时，您可能无法获得相同的类别信息。

摘要

无监督学习是一种机器学习技术，您无需对模型进行监督。
无监督机器学习可以帮助您在数据中发现各种未知的模式。
聚类和关联是无监督学习的两种类型。
四种聚类方法是：1）互斥式 2）凝聚式 3）重叠式 4）概率式。
重要的聚类类型包括：1）层次聚类 2）K-means 聚类 3）K-NN 4）主成分分析 5）奇异值分解 6）独立成分分析。
关联规则允许您在大型数据库中的数据对象之间建立关联。
在监督学习中，算法使用有标签数据进行训练，而在无监督学习中，算法应用于无标签数据。
异常检测可以发现数据集中的重要数据点，这有助于查找欺诈性交易。
无监督学习最大的缺点是您无法获得关于数据排序的精确信息。