无监督机器学习:算法、类型及示例

什么是无监督学习?

无监督学习是一种机器学习技术,用户无需对模型进行监督。相反,它允许模型自行工作,发现以前未检测到的模式和信息。它主要处理无标签数据。

无监督学习算法

无监督学习算法允许用户执行比监督学习更复杂的处理任务。尽管如此,与其它自然学习方法相比,无监督学习可能更不可预测。无监督学习算法包括聚类、异常检测、神经网络等。

无监督机器学习示例

让我们以一个婴儿和她的家庭犬为例来说明无监督学习。

Example of Unsupervised Machine Learning

她认识并识别出这只狗。几周后,一位家庭朋友带了一只狗来,试图和婴儿玩耍。

Example of Unsupervised Machine Learning

婴儿以前没见过这只狗。但她识别出许多特征(两只耳朵、眼睛、四条腿走路)与她的宠物狗相似。她将新动物识别为狗。这就是无监督学习,您没有被教导,而是从数据(在这种情况下是关于狗的数据)中学习。如果这是监督学习,那么家庭朋友会像上面无监督学习的例子一样告诉婴儿这是一只狗。

为什么需要无监督学习?

以下是使用无监督学习进行机器学习的主要原因:

  • 无监督机器学习可以在数据中发现各种未知的模式。
  • 无监督方法可以帮助您发现可用于分类的特征。
  • 它是在实时进行的,因此所有输入数据都将在学习者在场的情况下进行分析和标记。
  • 从计算机获取无标签数据比获取有标签数据更容易,后者需要手动干预。

聚类类型——无监督学习算法

以下是无监督机器学习算法的聚类类型:

无监督学习问题进一步分为聚类和关联问题。

聚类

Clustering
聚类

聚类是无监督学习中的一个重要概念。它主要处理在未分类数据集合中查找结构或模式。无监督学习聚类算法将处理您的数据,并在数据中找到存在的自然聚类(组)。您还可以修改算法应识别的聚类数量。它允许您调整这些组的粒度。

您可以使用不同类型的聚类:

互斥(划分式)

在此聚类方法中,数据被分组,以便一个数据只能属于一个聚类。

示例:K-means

凝聚式

在此聚类技术中,每个数据都是一个聚类。两个最近聚类之间的迭代合并会减少聚类数量。

示例:层次聚类

重叠式

在此技术中,模糊集用于聚类数据。每个点可能属于两个或更多个聚类,具有不同的隶属度。

在此,数据将与适当的隶属度值相关联。示例:Fuzzy C-Means

概率式

此技术使用概率分布来创建聚类。

示例:以下关键词

  • “男鞋”。
  • “女鞋”。
  • “女士手套”。
  • “男士手套”。

可以聚类为“鞋子”和“手套”或“男性”和“女性”两个类别。

聚类类型

以下是机器学习的聚类类型:

  • 层次聚类
  • K-means 聚类
  • K-NN(k 近邻)
  • 主成分分析
  • 奇异值分解
  • 独立成分分析

层次聚类

层次聚类是一种构建聚类层次结构的算法。它从所有分配到自己聚类的数据开始。在这里,两个接近的聚类将属于同一个聚类。该算法在只剩下一个聚类时结束。

K-means 聚类

K-means 是一种迭代聚类算法,可帮助您在每次迭代中找到最高值。最初,选择所需的聚类数量。在此聚类方法中,您需要将数据点聚类为 k 个组。较大的 k 意味着较小的组,具有相同的粒度。较低的 k 意味着较大的组,粒度较小。

该算法的输出是一组“标签”。它将数据点分配给 k 个组中的一个。在 k-means 聚类中,每个组通过为每个组创建质心来定义。质心就像聚类的核心,它捕获最接近它的点并将它们添加到聚类中。

K-means 聚类进一步定义了两个子组:

  • 凝聚式聚类
  • 树状图

凝聚式聚类

这种类型的 K-means 聚类从固定数量的聚类开始。它将所有数据分配到确切数量的聚类中。此聚类方法不需要聚类数量 K 作为输入。凝聚过程通过将每个数据形成单个聚类来开始。

此方法使用某种距离度量,通过合并过程减少聚类数量(每次迭代一个)。最后,我们得到一个包含所有对象的大聚类。

树状图

在树状图聚类方法中,每个级别都代表一个可能的聚类。树状图的高度显示了两个连接聚类之间的相似度级别。过程的底部越近,它们就越相似,从树状图中找到的组不是自然的,而且通常是主观的。

K-近邻

K-近邻是所有机器学习分类器中最简单的。它与其他机器学习技术不同之处在于它不生成模型。它是一个简单的算法,可以存储所有可用案例,并根据相似性度量对新实例进行分类。

当示例之间存在距离时,它效果很好。当训练集很大时,学习速度很慢,并且距离计算很复杂。

主成分分析

如果您需要更高维度的空间。您需要为该空间选择一个基,并且只选择该基的 200 个最重要的分数。这个基称为主成分。您选择的子集构成了一个比原始空间小的空间。它尽可能地保持数据的复杂性。

关联

关联规则允许您在大型数据库中的数据对象之间建立关联。这项无监督技术旨在发现大型数据库中变量之间的有趣关系。例如,购买新房的人最有可能购买新家具。

其他示例

  • 根据基因表达测量分组的一组癌症患者
  • 根据浏览和购买历史分组的购物者组
  • 根据电影观众评分分组的电影

监督学习与无监督机器学习

以下是监督学习与无监督学习之间的主要区别:

参数 监督机器学习技术 无监督机器学习技术
输入数据 算法使用有标签数据进行训练。 算法应用于无标签数据。
计算复杂度 监督学习是一种更简单的方法。 无监督学习计算复杂。
准确性 高度准确且可靠的方法。 准确性和可靠性较低的方法。

无监督机器学习的应用

无监督学习技术的一些应用:

  • 聚类根据相似性自动将数据集分成组。
  • 异常检测可以发现数据集中的异常数据点。它有助于查找欺诈性交易。
  • 关联挖掘识别数据集中经常一起出现的数据项集。
  • 潜变量模型广泛用于数据预处理。例如,减少数据集中的特征数量或将数据集分解为多个组件。

无监督学习的缺点

  • 您无法获得关于数据排序的精确信息,因为无监督学习中使用的数据是未标签的且未知的。
  • 结果准确性较低是因为输入数据是未知的,并且没有预先由人工标记。这意味着机器需要自己完成。
  • 光谱类别并不总是对应于信息类别。
  • 用户需要花费时间解释和标记分类后的类别。
  • 类别的光谱特性也可能随时间而变化,因此在从一个图像移动到另一个图像时,您可能无法获得相同的类别信息。

摘要

  • 无监督学习是一种机器学习技术,您无需对模型进行监督。
  • 无监督机器学习可以帮助您在数据中发现各种未知的模式。
  • 聚类和关联是无监督学习的两种类型。
  • 四种聚类方法是:1)互斥式 2)凝聚式 3)重叠式 4)概率式。
  • 重要的聚类类型包括:1)层次聚类 2)K-means 聚类 3)K-NN 4)主成分分析 5)奇异值分解 6)独立成分分析。
  • 关联规则允许您在大型数据库中的数据对象之间建立关联。
  • 在监督学习中,算法使用有标签数据进行训练,而在无监督学习中,算法应用于无标签数据。
  • 异常检测可以发现数据集中的重要数据点,这有助于查找欺诈性交易。
  • 无监督学习最大的缺点是您无法获得关于数据排序的精确信息。