无监督机器学习:算法、类型及示例
什么是无监督学习?
无监督学习是一种机器学习技术,用户无需对模型进行监督。相反,它允许模型自行工作,发现以前未检测到的模式和信息。它主要处理无标签数据。
无监督学习算法
无监督学习算法允许用户执行比监督学习更复杂的处理任务。尽管如此,与其它自然学习方法相比,无监督学习可能更不可预测。无监督学习算法包括聚类、异常检测、神经网络等。
无监督机器学习示例
让我们以一个婴儿和她的家庭犬为例来说明无监督学习。
她认识并识别出这只狗。几周后,一位家庭朋友带了一只狗来,试图和婴儿玩耍。
婴儿以前没见过这只狗。但她识别出许多特征(两只耳朵、眼睛、四条腿走路)与她的宠物狗相似。她将新动物识别为狗。这就是无监督学习,您没有被教导,而是从数据(在这种情况下是关于狗的数据)中学习。如果这是监督学习,那么家庭朋友会像上面无监督学习的例子一样告诉婴儿这是一只狗。
为什么需要无监督学习?
以下是使用无监督学习进行机器学习的主要原因:
- 无监督机器学习可以在数据中发现各种未知的模式。
- 无监督方法可以帮助您发现可用于分类的特征。
- 它是在实时进行的,因此所有输入数据都将在学习者在场的情况下进行分析和标记。
- 从计算机获取无标签数据比获取有标签数据更容易,后者需要手动干预。
聚类类型——无监督学习算法
以下是无监督机器学习算法的聚类类型:
无监督学习问题进一步分为聚类和关联问题。
聚类
聚类是无监督学习中的一个重要概念。它主要处理在未分类数据集合中查找结构或模式。无监督学习聚类算法将处理您的数据,并在数据中找到存在的自然聚类(组)。您还可以修改算法应识别的聚类数量。它允许您调整这些组的粒度。
您可以使用不同类型的聚类:
互斥(划分式)
在此聚类方法中,数据被分组,以便一个数据只能属于一个聚类。
示例:K-means
凝聚式
在此聚类技术中,每个数据都是一个聚类。两个最近聚类之间的迭代合并会减少聚类数量。
示例:层次聚类
重叠式
在此技术中,模糊集用于聚类数据。每个点可能属于两个或更多个聚类,具有不同的隶属度。
在此,数据将与适当的隶属度值相关联。示例:Fuzzy C-Means
概率式
此技术使用概率分布来创建聚类。
示例:以下关键词
- “男鞋”。
- “女鞋”。
- “女士手套”。
- “男士手套”。
可以聚类为“鞋子”和“手套”或“男性”和“女性”两个类别。
聚类类型
以下是机器学习的聚类类型:
- 层次聚类
- K-means 聚类
- K-NN(k 近邻)
- 主成分分析
- 奇异值分解
- 独立成分分析
层次聚类
层次聚类是一种构建聚类层次结构的算法。它从所有分配到自己聚类的数据开始。在这里,两个接近的聚类将属于同一个聚类。该算法在只剩下一个聚类时结束。
K-means 聚类
K-means 是一种迭代聚类算法,可帮助您在每次迭代中找到最高值。最初,选择所需的聚类数量。在此聚类方法中,您需要将数据点聚类为 k 个组。较大的 k 意味着较小的组,具有相同的粒度。较低的 k 意味着较大的组,粒度较小。
该算法的输出是一组“标签”。它将数据点分配给 k 个组中的一个。在 k-means 聚类中,每个组通过为每个组创建质心来定义。质心就像聚类的核心,它捕获最接近它的点并将它们添加到聚类中。
K-means 聚类进一步定义了两个子组:
- 凝聚式聚类
- 树状图
凝聚式聚类
这种类型的 K-means 聚类从固定数量的聚类开始。它将所有数据分配到确切数量的聚类中。此聚类方法不需要聚类数量 K 作为输入。凝聚过程通过将每个数据形成单个聚类来开始。
此方法使用某种距离度量,通过合并过程减少聚类数量(每次迭代一个)。最后,我们得到一个包含所有对象的大聚类。
树状图
在树状图聚类方法中,每个级别都代表一个可能的聚类。树状图的高度显示了两个连接聚类之间的相似度级别。过程的底部越近,它们就越相似,从树状图中找到的组不是自然的,而且通常是主观的。
K-近邻
K-近邻是所有机器学习分类器中最简单的。它与其他机器学习技术不同之处在于它不生成模型。它是一个简单的算法,可以存储所有可用案例,并根据相似性度量对新实例进行分类。
当示例之间存在距离时,它效果很好。当训练集很大时,学习速度很慢,并且距离计算很复杂。
主成分分析
如果您需要更高维度的空间。您需要为该空间选择一个基,并且只选择该基的 200 个最重要的分数。这个基称为主成分。您选择的子集构成了一个比原始空间小的空间。它尽可能地保持数据的复杂性。
关联
关联规则允许您在大型数据库中的数据对象之间建立关联。这项无监督技术旨在发现大型数据库中变量之间的有趣关系。例如,购买新房的人最有可能购买新家具。
其他示例
- 根据基因表达测量分组的一组癌症患者
- 根据浏览和购买历史分组的购物者组
- 根据电影观众评分分组的电影
监督学习与无监督机器学习
以下是监督学习与无监督学习之间的主要区别:
参数 | 监督机器学习技术 | 无监督机器学习技术 |
---|---|---|
输入数据 | 算法使用有标签数据进行训练。 | 算法应用于无标签数据。 |
计算复杂度 | 监督学习是一种更简单的方法。 | 无监督学习计算复杂。 |
准确性 | 高度准确且可靠的方法。 | 准确性和可靠性较低的方法。 |
无监督机器学习的应用
无监督学习技术的一些应用:
- 聚类根据相似性自动将数据集分成组。
- 异常检测可以发现数据集中的异常数据点。它有助于查找欺诈性交易。
- 关联挖掘识别数据集中经常一起出现的数据项集。
- 潜变量模型广泛用于数据预处理。例如,减少数据集中的特征数量或将数据集分解为多个组件。
无监督学习的缺点
- 您无法获得关于数据排序的精确信息,因为无监督学习中使用的数据是未标签的且未知的。
- 结果准确性较低是因为输入数据是未知的,并且没有预先由人工标记。这意味着机器需要自己完成。
- 光谱类别并不总是对应于信息类别。
- 用户需要花费时间解释和标记分类后的类别。
- 类别的光谱特性也可能随时间而变化,因此在从一个图像移动到另一个图像时,您可能无法获得相同的类别信息。
摘要
- 无监督学习是一种机器学习技术,您无需对模型进行监督。
- 无监督机器学习可以帮助您在数据中发现各种未知的模式。
- 聚类和关联是无监督学习的两种类型。
- 四种聚类方法是:1)互斥式 2)凝聚式 3)重叠式 4)概率式。
- 重要的聚类类型包括:1)层次聚类 2)K-means 聚类 3)K-NN 4)主成分分析 5)奇异值分解 6)独立成分分析。
- 关联规则允许您在大型数据库中的数据对象之间建立关联。
- 在监督学习中,算法使用有标签数据进行训练,而在无监督学习中,算法应用于无标签数据。
- 异常检测可以发现数据集中的重要数据点,这有助于查找欺诈性交易。
- 无监督学习最大的缺点是您无法获得关于数据排序的精确信息。