面向初学者的机器学习教程:什么是机器学习,机器学习基础
什么是机器学习?
机器学习是一套计算机算法,它可以通过自我改进从示例中学习,而无需程序员显式编码。机器学习是人工智能的一部分,它结合了数据和统计工具来预测输出,并可用于提供可操作的见解。
其突破在于这样一个理念:机器可以仅凭数据(即示例)进行学习,从而产生准确的结果。机器学习与数据挖掘和贝叶斯预测模型密切相关。机器接收数据作为输入,并使用算法来制定答案。
典型的机器学习任务是提供推荐。对于拥有 Netflix 帐户的用户来说,所有电影或连续剧的推荐都基于用户的历史数据。科技公司正在使用无监督学习通过个性化推荐来改善用户体验。
机器学习还用于各种任务,如欺诈检测、预测性维护、投资组合优化、自动化任务等。
机器学习与传统编程
传统编程与机器学习有显著不同。在传统编程中,程序员会与正在开发软件的行业专家协商,编写所有规则。每条规则都基于逻辑基础;机器将遵循逻辑语句执行输出。随着系统变得复杂,需要编写更多规则。这很快就会变得难以维护。
机器学习旨在克服这个问题。机器学习输入和输出数据之间的相关性,并编写规则。程序员无需每次有新数据时都编写新规则。算法会根据新数据和经验进行调整,以随着时间的推移提高效率。
机器学习如何工作?
现在,在本机器学习入门教程中,我们将学习机器学习 (ML) 是如何工作的。
机器学习是所有学习发生的大脑。机器的学习方式与人类相似。人类从经验中学习。我们知道得越多,就能越容易地预测。类比来说,当我们面对未知情况时,成功的几率低于已知情况。机器的训练方式也是如此。为了做出准确的预测,机器会看到一个示例。当我们给机器一个类似的示例时,它可以找出结果。然而,与人类一样,如果它接收到一个以前从未见过的示例,机器在预测方面就会遇到困难。
机器学习的核心目标是学习和推理。首先,机器通过模式发现来学习。这种发现是借助数据实现的。数据科学家的关键部分是仔细选择要提供给机器的数据。用于解决问题的一系列属性称为特征向量。您可以将特征向量视为用于解决问题的数据子集。
机器使用一些精巧的算法来简化现实,并将这种发现转化为模型。因此,学习阶段用于描述数据并将其概括为模型。
例如,机器试图理解一个人薪资与去高档餐厅的可能性之间的关系。事实证明,机器发现了薪资与去高档餐厅之间的正相关关系:这就是模型。
推理
模型构建完成后,就可以在从未见过的数据上测试其威力。新数据被转换为特征向量,通过模型并给出预测。这就是机器学习的美妙之处。无需更新规则或重新训练模型。您可以使用先前训练的模型对新数据进行推理。
机器学习程序的工作流程很简单,可以概括为以下几点:
- 定义问题
- 收集数据
- 可视化数据
- 训练算法
- 测试算法
- 收集反馈
- 优化算法
- 重复 4-7 步,直到结果令人满意
- 使用模型进行预测
一旦算法能够正确地得出结论,它就会将这些知识应用于新的数据集。
机器学习算法及其使用场景?
现在,在本机器学习入门教程中,我们将学习机器学习 (ML) 算法的使用场景。
机器学习可分为两大类学习任务:监督学习和无监督学习。还有许多其他算法。
监督学习
算法使用训练数据和人工反馈来学习给定输入与给定输出之间的关系。例如,从业人员可以使用营销费用和天气预报作为输入数据来预测罐头的销量。
当输出数据已知时,您可以使用监督学习。算法将预测新数据。
监督学习有两种类别:
- 分类任务
- 回归任务
分类
想象一下,您想为商业广告预测客户的性别。您将开始收集客户数据库中客户的身高、体重、职业、薪资、购物篮等数据。您知道每个客户的性别,只能是男性或女性。分类器的目标将是根据您收集的信息(即特征)分配男性或女性的概率(即标签)。当模型学会识别男性或女性后,您就可以使用新数据进行预测。例如,您刚收到一位未知客户的新信息,想知道他是男性还是女性。如果分类器预测男性为 70%,则意味着算法有 70% 的把握认为该客户是男性,30% 是女性。
标签可以有两个或多个类别。上面的机器学习示例只有两个类别,但如果分类器需要预测对象,则有几十个类别(例如,玻璃、桌子、鞋子等,每个对象代表一个类别)。
回归测试
当输出是连续值时,该任务就是回归。例如,金融分析师可能需要根据一系列特征(如股票、过去的股票表现、宏观经济指数)来预测股票的价值。系统将接受训练,以最低的可能误差来估算股票的价格。
算法 | 描述 | 类型 |
---|---|---|
线性回归 | 找到一种方法将每个特征与输出相关联,以帮助预测未来值。 | 回归测试 |
逻辑回归 | 线性回归的扩展,用于分类任务。输出变量是二元的(例如,只有黑色或白色),而不是连续的(例如,无限的潜在颜色列表)。 | 分类 |
决策树 | 高度可解释的分类或回归模型,将数据特征值分割成决策节点中的分支(例如,如果特征是颜色,每种可能的颜色都会成为一个新的分支),直到做出最终决策输出。 | 回归测试 分类 |
朴素贝叶斯 | 贝叶斯方法是一种利用贝叶斯定理的分类方法。该定理用每个可能影响事件的特征的独立概率来更新事件的先验知识。 | 回归测试 分类 |
支持向量机 |
支持向量机,或 SVM,通常用于分类任务。 SVM 算法找到一个最优地划分类别的超平面。它最好与非线性求解器一起使用。 |
回归(不太常见) 分类 |
随机森林 | 该算法基于决策树来显著提高准确性。随机森林多次生成简单的决策树,并使用“多数投票”方法来决定返回哪个标签。对于分类任务,最终预测将是得票最多的那个;而对于回归任务,所有树的平均预测是最终预测。 | 回归测试 分类 |
AdaBoost | 用于分类或回归的技术,它使用多种模型来做出决策,但根据它们在预测结果中的准确性对其进行加权。 | 回归测试 分类 |
梯度提升树 | 梯度提升树是一种最先进的分类/回归技术。它关注前一棵树产生的错误并尝试纠正它。 | 回归测试 分类 |
无监督学习
在无监督学习中,算法会探索输入数据,而不会被赋予明确的输出变量(例如,探索客户人口统计数据以识别模式)。
当您不知道如何对数据进行分类,并且希望算法为您找到模式并进行分类时,可以使用它。
算法名称 | 描述 | 类型 |
---|---|---|
K-means 聚类 | 将数据分成一些组(k),每组包含具有相似特征的数据(由模型确定,而非人类预先确定)。 | 聚类 |
高斯混合模型 | K-means 聚类的推广,为组(簇)的大小和形状提供了更大的灵活性。 | 聚类 |
层次聚类 | 沿着层次树分割簇以形成分类系统。
可用于对忠诚客户进行聚类 |
聚类 |
推荐系统 | 帮助定义用于进行推荐的相关数据。 | 聚类 |
PCA/T-SNE | 主要用于降低数据维度。算法将特征数量减少到 3 或 4 个方差最大的向量。 | 降维 |
如何选择机器学习算法
现在,在本机器学习基础教程中,我们将学习如何选择机器学习 (ML) 算法。
机器学习算法有很多。算法的选择基于目标。
在下面的机器学习示例中,任务是预测三种品种中的花卉类型。预测基于花瓣的长度和宽度。图片展示了十种不同算法的结果。左上角的图片是数据集。数据分为三类:红色、浅蓝色和深蓝色。有一些分组。例如,从第二张图片开始,左上部分属于红色类别,中间部分存在不确定性和浅蓝色混合,而底部则属于深蓝色类别。其他图片展示了不同的算法以及它们如何尝试对数据进行分类。
机器学习的挑战与局限性
现在,在本机器学习教程中,我们将了解机器学习的局限性。
机器学习的主要挑战是数据缺乏或数据集多样性不足。如果没有可用数据,机器就无法学习。此外,数据集多样性不足也会给机器带来困难。机器需要异质性才能学习有意义的见解。当变化很少或没有变化时,算法很难提取信息。建议每组至少有 20 个观测值来帮助机器学习。这种限制会导致评估和预测不佳。
机器学习的应用
现在,在本机器学习教程中,让我们学习机器学习的应用。
增强:
- 机器学习在个人或商业上协助人类完成日常任务,但不会完全控制输出。这种机器学习有多种用途,例如虚拟助手、数据分析、软件解决方案。主要用户是为了减少人为偏见导致的错误。
自动化:
- 机器学习在任何领域都可以完全自主地工作,无需任何人工干预。例如,机器人在制造工厂执行关键工艺步骤。
金融行业
- 机器学习在金融行业的受欢迎程度日益提高。银行主要利用机器学习在数据中寻找模式,同时也用于防止欺诈。
政府组织
- 政府利用机器学习来管理公共安全和公用事业。以中国为例,大规模的人脸识别。政府使用人工智能来防止行人闯红灯。
医疗保健行业
- 医疗保健行业是较早使用机器学习进行图像检测的行业之一。
市场营销
- 由于大量数据,人工智能在营销领域得到了广泛应用。在大数据时代之前,研究人员开发了像贝叶斯分析这样的高级数学工具来估算客户价值。随着数据量的爆炸式增长,营销部门依靠人工智能来优化客户关系和营销活动。
机器学习在供应链中的应用示例
机器学习在视觉模式识别方面取得了惊人的成果,为整个供应链网络的现场检查和维护开辟了许多潜在的应用。
无监督学习可以快速搜索多样化数据集中的相似模式。反过来,机器可以在物流中心、损坏和磨损的货物中执行质量检查。
例如,IBM 的 Watson 平台可以确定集装箱损坏。Watson 结合了视觉和系统数据,实时跟踪、报告和提出建议。
过去,库存经理严重依赖主要方法来评估和预测库存。当结合大数据和机器学习时,已经实施了更好的预测技术(比传统预测工具提高了 20% 到 30%)。就销售而言,这意味着由于库存成本可能降低而增加了 2% 到 3%。
谷歌汽车的机器学习示例
例如,大家都知道谷歌汽车。汽车顶部装满了激光雷达,可以告诉它相对于周围区域的位置。它在前部装有雷达,可以告知汽车周围所有汽车的速度和运动。它利用所有这些数据来弄清楚如何驾驶汽车,以及预测周围潜在的驾驶员会做什么。令人印象深刻的是,汽车每秒处理近一千兆字节的数据。
为什么机器学习很重要?
到目前为止,机器学习是分析、理解和识别数据模式的最佳工具。机器学习背后的主要思想之一是,计算机可以被训练来自动化对人类来说是耗费精力或不可能的任务。与传统分析的明显区别在于,机器学习可以在最少的人工干预下做出决策。
以本次 ML 教程为例,零售代理可以根据自己的经验和市场知识来估算房屋价格。
机器可以被训练来将专家的知识转化为特征。特征是指构成价格差异的所有房屋、社区、经济环境等特征。对于专家来说,可能需要数年时间才能掌握估算房屋价格的艺术。他的专业知识在每次销售后都在不断提高。
对于机器来说,需要数百万条数据(即示例)来掌握这项艺术。在其学习初期,机器会犯错误,有点像初级销售员。一旦机器看到所有示例,它就获得了足够多的知识来做出估算。同时,以惊人的准确度。机器还可以相应地调整其错误。
大多数大公司已经认识到机器学习的价值并掌握了数据。麦肯锡估计,分析的价值范围为9.5 万亿至 15.4 万亿美元,其中5 至 7 万亿美元归功于最先进的人工智能技术。
另请阅读什么是模糊逻辑?架构、应用和示例:点击此处