数据挖掘教程:什么是数据挖掘?技术、流程

什么是数据挖掘?

数据挖掘是从大型数据集中查找潜在有用模式的过程。它是一项多学科技能,使用机器学习、统计学和人工智能来提取信息,以评估未来事件的概率。数据挖掘得出的见解可用于营销、欺诈检测、科学发现等。

数据挖掘的重点是发现数据中隐藏的、未被察觉的、以前未知的但有效的关系。数据挖掘也称为数据知识发现(KDD)、知识提取、数据/模式分析、信息收集等。

数据类型

可以对以下类型的数据进行数据挖掘

  • 关系数据库
  • 数据仓库
  • 高级数据库和信息存储库
  • 面向对象和对象关系数据库
  • 事务型和空间数据库
  • 异构和遗留数据库
  • 多媒体和流数据库
  • 文本数据库
  • 文本挖掘和网络挖掘

数据挖掘实施过程

Data Mining Implementation Process
数据挖掘实施过程

现在,让我们详细研究数据挖掘的实施过程。

业务理解

在此阶段,将确定业务和数据挖掘目标。

  • 首先,您需要了解业务和客户目标。您需要定义客户想要什么(这通常是客户自己也不知道的)。
  • 对当前数据挖掘场景进行评估。在评估中考虑资源、假设、约束和其他重要因素。
  • 利用业务目标和当前场景,定义您的数据挖掘目标。
  • 良好的数据挖掘计划应非常详细,并应为实现业务和数据挖掘目标而制定。

数据理解

在此阶段,将进行数据的一致性检查,以确保其适合数据挖掘目标。

  • 首先,从组织内可用的多个数据源收集数据。
  • 这些数据源可能包括多个数据库、平面文件或数据立方体。在数据集成过程中可能会出现诸如对象匹配和模式集成之类的问题。这是一个相当复杂且棘手aneous的过程,因为来自不同源的数据不太可能轻易匹配。例如,表 A 包含一个名为 cust_no 的实体,而另一个表 B 包含一个名为 cust-id 的实体。
  • 因此,很难确保这两个给定对象都引用相同的值。在此,应使用元数据来减少数据集成过程中的错误。
  • 接下来,是搜索已获取数据的属性。探索数据的一个好方法是使用查询、报告和可视化工具来回答数据挖掘问题(在业务阶段确定)。
  • 根据查询结果,应确定数据质量。如有任何缺失数据,应予以获取。

数据准备

在此阶段,数据将准备好投入生产。

数据准备过程会消耗项目约 90% 的时间。

应选择、清理、转换、格式化、匿名化和构建(如果需要)来自不同来源的数据。

数据清理是“清理”数据 else的过程,通过平滑噪声数据和填充缺失值。

例如,对于客户人口统计信息,年龄数据缺失。数据不完整,应予填充。在某些情况下,可能存在数据异常值。例如,年龄为 300。数据可能不一致。例如,不同表中客户姓名不同。

数据转换操作会更改数据,使其在数据挖掘中有用。可以应用以下转换:

数据转换

数据转换操作将有助于挖掘过程的成功。

平滑:它有助于消除数据中的噪声。

聚合:对数据应用摘要或聚合操作。例如,将周销售数据汇总以计算月度和年度总计。

泛化:在此步骤中,使用概念层次结构,用更高级别的概念替换低级别数据。例如,用县替换城市。

归一化:当属性数据被缩放到最大或最小化时执行归一化。示例:归一化后的数据应落在 -2.0 到 2.0 的范围内。

属性构建:这些属性被构建并包含一组有助于数据挖掘的给定属性。

此过程的结果是一个可用于建模的最终数据集。

建模

在此阶段,使用数学模型来确定数据模式。

  • 根据业务目标,应为准备好的数据集选择合适的建模技术。
  • 创建一个场景来测试模型的质量和有效性。
  • 在准备好的数据集上运行模型。
  • 所有利益相关者都应评估结果,以确保模型能够满足数据挖掘目标。

评估

在此阶段,将识别的模式与业务目标进行评估。

  • 数据挖掘模型生成的结果应与业务目标进行评估。
  • 获得业务理解是一个迭代过程。实际上,在理解过程中,可能会因为数据挖掘而提出新的业务需求。
  • 做出“通过”或“不通过”的决定,将模型移至部署阶段。

部署

在部署阶段,您将数据挖掘的发现结果应用到日常业务运营中。

  • 在数据挖掘过程中发现的知识或信息应易于非技术利益相关者理解。
  • 制定详细的部署计划,用于数据挖掘发现结果的交付、维护和监控。
  • 创建最终的项目报告,其中包含项目中的经验教训和关键经验。这有助于改进组织的业务政策。

数据挖掘技术

Data Mining Techniques
数据挖掘技术

1. 分类

此分析用于检索有关数据和元信息的重要且相关的信息。这种数据挖掘方法有助于将数据分类到不同的类别中。

2. 聚类

聚类分析是一种数据挖掘技术,用于识别彼此相似的数据。此过程有助于理解数据之间的差异和相似之处。

3. 回归

回归分析是一种识别和分析变量之间关系的数据挖掘方法。它用于确定在存在其他变量的情况下特定变量的可能性。

4. 关联规则

此数据挖掘技术有助于查找两个或多个项目之间的关联。它能发现数据集中隐藏的模式。

5. 异常检测

这种类型的数据挖掘技术是指观察数据集中与预期模式或预期行为不符的数据项。此技术可用于各种领域,例如入侵检测、欺诈或故障检测等。异常检测也称为异常值分析或异常值挖掘。

6. 顺序模式

此数据挖掘技术有助于发现或识别特定时期交易数据中的相似模式或趋势。

7. 预测

预测结合了其他数据挖掘技术,如趋势、顺序模式、聚类、分类等。它分析过去事件或实例的正确顺序来预测未来事件。

数据挖掘实施的挑战

  • 需要熟练的专家来制定数据挖掘查询。
  • 过拟合:由于训练数据库规模小,模型可能不适用于未来的状态。
  • 数据挖掘需要大型数据库,有时难以管理。
  • 可能需要修改业务实践来决定使用发现的信息。
  • 如果数据集不够多样化,数据挖掘结果可能不准确。
  • 从异构数据库和全局信息系统集成信息可能很复杂。

数据挖掘示例

现在,在本数据挖掘课程中,让我们通过示例学习数据挖掘。

示例 1

考虑一家电信服务提供商的市场总监,他希望增加长途服务的收入。为了提高销售和营销活动的投资回报率,客户画像很重要。他拥有大量的客户信息,如年龄、性别、收入、信用记录等。但通过手动分析不可能确定偏爱长途电话的人的特征。使用数据挖掘技术,他可能会揭示长途电话用户与其特征之间的模式。

例如,他可能会发现,他的最佳客户是 45 至 54 岁之间、年收入超过 80,000 美元的已婚女性。营销工作可以针对这些人口统计特征。

示例 2

一家银行正在寻找新的方式来增加其信用卡业务的收入。他们想查看如果费用减半,使用量是否会翻倍。

银行拥有多年关于平均信用卡余额、还款金额、信用额度使用情况和其他关键参数的记录。他们创建一个模型来检查拟议的新业务政策的影响。数据结果表明,将目标客户群的费用减半可以使收入增加 1000 万美元。

数据挖掘工具

以下是行业中广泛使用的 2 种流行数据挖掘工具

R 语言

R 语言是统计计算和图形学的开源工具。R 拥有各种统计、经典统计检验、时间序列分析、分类和图形技术。它提供了有效的数据处理和存储功能。

在此处了解更多

Oracle 数据挖掘

Oracle 数据挖掘(通常称为 ODM)是 Oracle Advanced Analytics Database 的一个模块。此数据挖掘工具允许数据分析师生成详细的见解并进行预测。它有助于预测客户行为、开发客户画像、识别交叉销售机会。

在此处了解更多

数据挖掘的好处

  • 数据挖掘技术帮助公司获取基于知识的信息。
  • 数据挖掘有助于组织在运营和生产方面做出有利可图的调整。
  • 与其他人文统计数据应用程序相比,数据挖掘是一种经济高效且高效的解决方案。
  • 数据挖掘有助于决策过程。
  • 促进趋势和行为的自动预测以及隐藏模式的自动发现。
  • 它可以实现到新系统和现有平台中。
  • 这是一个快速的过程,使用户能够轻松地在更少的时间内分析大量数据。

数据挖掘的缺点

  • 公司有可能将客户的有用信息出售给其他公司以换取金钱。例如,美国运通已将其客户的信用卡购买记录出售给其他公司。
  • 许多数据挖掘分析软件难以操作,需要高级培训才能使用。
  • 由于设计中使用的算法不同,不同的数据挖掘工具的工作方式也不同。因此,选择正确的数据挖掘工具是一项非常艰巨的任务。
  • 数据挖掘技术不准确,因此在某些情况下可能会导致严重后果。

数据挖掘应用

Applications 用途
通信 数据挖掘技术用于通信行业,以预测客户行为,从而提供高度针对性和相关的营销活动。
保险业 数据挖掘帮助保险公司为其产品进行有利可图的定价,并向新客户或现有客户推广新优惠。
教育 数据挖掘使教育工作者能够访问学生数据,预测成就水平,并找到需要额外关注的学生或学生群体。例如,数学科目薄弱的学生。
制造业 通过数据挖掘,制造商可以预测生产资产的磨损。他们可以预见维护,这有助于他们减少停机时间。
银行 数据挖掘帮助金融部门了解市场风险并管理监管合规性。它帮助银行识别潜在的违约者,以决定是否发行信用卡、贷款等。
零售 数据挖掘技术帮助零售商场和杂货店识别并将最畅销的商品安排在最吸引人的位置。它帮助店主提出鼓励顾客增加支出的提议。
服务提供商 移动电话和公用事业行业等服务提供商使用数据挖掘来预测客户离开公司的原因。他们分析账单明细、客户服务互动、向公司提出的投诉,为每个客户分配一个概率分数并提供激励措施。
电子商务 电子商务网站使用数据挖掘在其网站上提供交叉销售和追加销售。最著名的公司之一是亚马逊,它使用数据挖掘技术来吸引更多客户访问其电子商务商店。
超市 数据挖掘允许超市制定规则来预测其购物者是否可能怀孕。通过评估他们的购物模式,他们可以找到最有可能怀孕的女性顾客。他们可以开始销售婴儿爽身粉、婴儿用品、尿布等产品。
犯罪调查 数据挖掘帮助犯罪调查机构部署警力(犯罪最有可能发生在何时何地?)、在边境口岸搜查谁等。
生物信息学 数据挖掘有助于从生物学和医学收集的海量数据集中挖掘生物数据。

摘要

  • 数据挖掘定义:数据挖掘就是通过数据分析来解释过去和预测未来。
  • 数据挖掘有助于从大量数据中提取信息。它是从数据中挖掘知识的过程。
  • 数据挖掘过程包括业务理解、数据理解、数据准备、建模、评估、部署。
  • 重要的数据挖掘技术包括分类、聚类、回归、关联规则、异常检测、顺序模式和预测。
  • R 语言和 Oracle 数据挖掘是重要的数据挖掘工具和技术。
  • 数据挖掘技术帮助公司获取基于知识的信息。
  • 数据挖掘的主要缺点是许多分析软件难以操作,需要高级培训才能使用。
  • 数据挖掘应用于通信、保险、教育、制造、银行、零售、服务提供商、电子商务、超市、生物信息学等各个行业。