什么是数据仓库?类型、定义和示例

什么是数据仓库?

数据仓库(DW)是一个从不同来源收集和管理数据以提供有意义的商业洞察力的过程。数据仓库通常用于连接和分析来自异构来源的业务数据。数据仓库是用于数据分析和报告的 BI 系统的核心。

它是技术和组件的结合,有助于数据的战略性使用。它是一个企业存储大量信息的电子存储库,旨在进行查询和分析,而不是事务处理。它是一个将数据转化为信息,并及时提供给用户以产生影响的过程。

决策支持数据库(数据仓库)与组织的运营数据库分开维护。然而,数据仓库并非产品,而是一个环境。它是一个信息系统的架构构造,为用户提供当前和历史决策支持信息,这些信息在传统的运营数据存储中难以访问或呈现。

您可能知道,为库存系统设计的 3NF 数据库可能包含相互关联的表。例如,一份关于当前库存信息的报告可能包含超过 12 个连接条件。这会迅速降低查询和报告的响应时间。数据仓库提供了一种新的设计,可以帮助缩短响应时间,并有助于提高报告和分析查询的性能。

数据仓库系统也被称为以下名称:

  • 决策支持系统 (DSS)
  • 执行信息系统
  • 管理信息系统
  • 商业智能解决方案
  • 分析应用程序
  • 数据仓库

Data Warehousing

数据仓库的历史

数据仓库帮助用户理解和提升组织的绩效。对数据进行仓储的需求随着计算机系统变得越来越复杂,需要处理越来越多的信息而演变。然而,数据仓储并非新鲜事物。

以下是数据仓库发展中的一些关键事件:

  • 1960年——达特茅斯大学和通用磨坊公司在一个联合研究项目中开发了维度和事实的概念。
  • 1970年——尼尔森和IRI引入了用于零售销售的维度数据市场。
  • 1983年——Tera Data Corporation推出了一种专门为决策支持而设计的数据库管理系统。
  • 数据仓储始于1980年代后期,当时IBM员工Paul Murphy和Barry Devlin开发了商业数据仓库。
  • 然而,真正的概念是由Inmon Bill提出的。他被认为是数据仓库之父。他撰写了关于数据仓库和企业信息工厂的构建、使用和维护的各种主题。

数据仓库如何运作?

数据仓库作为一个中央存储库运行,信息从一个或多个数据源传入。数据从事务系统和其他关系数据库流入数据仓库。

数据可以是

  1. 结构化数据
  2. 半结构化数据
  3. 非结构化数据

数据经过处理、转换和摄取,以便用户可以通过商业智能工具、SQL 客户端和电子表格访问数据仓库中的已处理数据。数据仓库将来自不同来源的信息合并到一个综合数据库中。

通过将所有这些信息集中在一个地方,组织可以更全面地分析其客户。这有助于确保它已经考虑了所有可用信息。数据仓库使数据挖掘成为可能。数据挖掘是在数据中寻找可能导致更高销售额和利润的模式。

数据仓库的类型

数据仓库(DWH)主要有三种类型

1. 企业数据仓库 (EDW)

企业数据仓库(EDW)是一个集中式仓库。它在整个企业范围内提供决策支持服务。它提供了一种统一的数据组织和表示方法。它还能够根据主题对数据进行分类,并根据这些划分提供访问权限。

2. 操作数据存储

操作数据存储,也称为 ODS,是当数据仓库和 OLTP 系统都无法满足组织报告需求时所需的数据存储。在 ODS 中,数据仓库实时刷新。因此,它广泛用于日常活动,如存储员工记录。

3. 数据集市

数据集市是数据仓库的子集。它专门为某个特定的业务线设计,例如销售、财务或销售和财务。在独立的数据集市中,数据可以直接从源头收集。

数据仓库的通用阶段

早期,组织对数据仓储的使用相对简单。然而,随着时间的推移,数据仓储的使用变得更加复杂。

以下是数据仓库 (DWH) 使用的通用阶段

离线运营数据库

在此阶段,数据仅从一个操作系统复制到另一个服务器。这样,复制数据的加载、处理和报告不会影响操作系统的性能。

离线数据仓库

数据仓库中的数据会定期从操作数据库中更新。数据仓库中的数据经过映射和转换,以满足数据仓库的目标。

实时数据仓库

在此阶段,只要操作数据库中发生任何事务,数据仓库就会更新。例如,航空或铁路预订系统。

集成数据仓库

在此阶段,当操作系统执行事务时,数据仓库会持续更新。然后,数据仓库生成事务并将其传回操作系统。

数据仓库的组成部分

数据仓库的四个组成部分是

加载管理器:加载管理器也称为前端组件。它执行与数据提取和加载到仓库相关的所有操作。这些操作包括准备数据进入数据仓库的转换。

仓库管理器:仓库管理器执行与仓库中数据管理相关的操作。它执行诸如数据分析以确保一致性、创建索引和视图、生成反规范化和聚合、转换和合并源数据以及数据归档和备份等操作。

查询管理器:查询管理器也称为后端组件。它执行与用户查询管理相关的所有操作。该数据仓库组件的操作是将查询直接指向相应的表以调度查询的执行。

终端用户访问工具

这分为五个不同的组:1.数据报告 2.查询工具 3.应用程序开发工具 4.EIS 工具 5.OLAP 工具和数据挖掘工具

谁需要数据仓库?

所有类型的用户都需要数据仓库(DWH),例如

  • 依赖大量数据的决策者
  • 使用定制的复杂流程从多个数据源获取信息的用户。
  • 它也被希望通过简单技术访问数据的人使用。
  • 对于那些希望采用系统方法进行决策的人来说,它也是必不可少的。
  • 如果用户希望在海量数据上获得快速性能,这对于报表、网格或图表来说是必需的,那么数据仓库将证明其有用。
  • 如果您想发现数据流和分组的“隐藏模式”,数据仓库是第一步。

数据仓库的用途是什么?

以下是数据仓库最常用的行业领域:

航空公司

在航空系统中,它用于运营目的,如机组分配、航线盈利能力分析、常旅客计划促销等。

银行

它在银行部门广泛用于有效管理可用的桌面资源。一些银行也将其用于市场研究、产品性能分析和运营。

医疗保健

医疗保健部门也使用数据仓库来制定战略和预测结果,生成患者治疗报告,与合作保险公司、医疗援助服务等共享数据。

公共部门

在公共部门,数据仓库用于情报收集。它帮助政府机构维护和分析每个人的税务记录、健康政策记录。

投资与保险行业

在这个行业中,数据仓库主要用于分析数据模式、客户趋势和跟踪市场动向。

连锁零售

在连锁零售中,数据仓库被广泛用于分销和营销。它还有助于跟踪商品、顾客购买模式、促销活动,并用于制定定价策略。

电信业

数据仓库在这个行业中用于产品推广、销售决策和制定分销决策。

酒店业

该行业利用数据仓库服务来设计和评估其广告和促销活动,他们希望根据客户的反馈和旅行模式来锁定目标客户。

实施数据仓库的步骤

解决与数据仓库实施相关的业务风险的最佳方法是采用以下三管齐下的策略

  1. 企业战略:在这里,我们确定包括当前架构和工具在内的技术。我们还确定事实、维度和属性。数据映射和转换也通过了。
  2. 分阶段交付:数据仓库的实施应根据主题领域分阶段进行。相关的业务实体,如预订和账单,应首先实施,然后相互集成。
  3. 迭代原型设计:数据仓库应以迭代方式开发和测试,而不是采用大爆炸式实施方法。

以下是数据仓库实施的关键步骤及其交付成果。

步骤 任务 可交付成果
1 需要定义项目范围 范围定义
2 需要确定业务需求 逻辑数据模型
3 定义操作数据存储需求 操作数据存储模型
4 获取或开发提取工具 提取工具和软件
5 定义数据仓库数据需求 过渡数据模型
6 记录缺失数据 待办项目列表
7 将操作数据存储映射到数据仓库 数据仓库数据集成映射
8 开发数据仓库数据库设计 数据仓库数据库设计
9 从操作数据存储中提取数据 集成数据仓库数据提取
10 加载数据仓库 初始数据加载
11 维护数据仓库 持续数据访问和后续加载

实施数据仓库的最佳实践

  • 制定计划以测试数据的一致性、准确性和完整性。
  • 数据仓库必须良好集成、定义清晰并带有时间戳。
  • 在设计数据仓库时,请确保使用正确的工具,遵循生命周期,注意数据冲突,并乐于从错误中学习。
  • 切勿替换运营系统和报告
  • 不要花费过多时间在提取、清洗和加载数据上。
  • 确保让所有利益相关者,包括业务人员,参与到数据仓库实施过程中。明确数据仓储是一个联合/团队项目。您不希望创建一个对最终用户无用的数据仓库。
  • 为最终用户准备培训计划。

为什么我们需要数据仓库?优点和缺点

数据仓库(DWH)的优势

  • 数据仓库允许业务用户从一些来源快速访问所有关键数据,集中在一处。
  • 数据仓库为各种跨职能活动提供一致的信息。它还支持即席报告和查询。
  • 数据仓库有助于整合多个数据源,从而减轻生产系统的压力。
  • 数据仓库有助于缩短分析和报告的总周转时间。
  • 重组和整合使用户更容易用于报告和分析。
  • 数据仓库允许用户在一个地方访问来自多个来源的关键数据。因此,它节省了用户从多个来源检索数据的时间。
  • 数据仓库存储大量的历史数据。这有助于用户分析不同的时间段和趋势,以做出未来预测。

数据仓库的缺点

  • 不适用于非结构化数据。
  • 数据仓库的创建和实施无疑是耗时的事情。
  • 数据仓库可能相对较快地过时。
  • 难以更改数据类型和范围、数据源模式、索引和查询。
  • 数据仓库看起来可能很简单,但实际上对于普通用户来说过于复杂。
  • 尽管项目管理尽了最大努力,数据仓储项目范围仍会不断扩大。
  • 有时仓库用户会制定不同的业务规则。
  • 组织需要投入大量资源用于培训和实施。

数据仓库的未来

  • 监管限制的变化可能会限制合并不同数据源的能力。这些不同来源可能包括难以存储的非结构化数据。
  • 随着数据库规模的增长,对超大型数据库的定义也在不断扩大。构建和运行规模不断扩大的数据仓库系统非常复杂。目前可用的硬件和软件资源不允许在线保留大量数据。
  • 多媒体数据不像文本数据那样容易操作,而文本信息可以通过目前可用的关系型软件进行检索。这可能是一个研究课题。

数据仓库工具

市场上有很多数据仓库工具。以下是一些最著名的工具:

1. MarkLogic

MarkLogic 是一款有用的数据仓储解决方案,它利用一系列企业功能,使数据集成更轻松、更快速。该工具可帮助执行非常复杂的搜索操作。它可以查询不同类型的数据,例如文档、关系和元数据。

https://www.marklogic.com/product/getting-started/

2. Oracle

Oracle是业界领先的数据库。它为本地和云端提供广泛的数据仓库解决方案选择。它通过提高运营效率来帮助优化客户体验。

https://www.oracle.com/index.html

3. Amazon RedShift

Amazon Redshift 是一种数据仓库工具。它是一款简单且经济高效的工具,可使用标准SQL 和现有 BI 工具分析所有类型的数据。它还允许使用查询优化技术对 PB 级的结构化数据运行复杂查询。

https://aws.amazon.com/redshift/?nc2=h_m1

以下是完整的有用数据仓库工具列表。

主要学习点

  • 数据仓库(DWH),又称企业数据仓库(EDW)。
  • 数据仓库被定义为一个中央存储库,信息来源于一个或多个数据源。
  • 数据仓库主要有三种类型:企业数据仓库(EDW)、操作数据存储和数据集市。
  • 数据仓库的通用状态包括离线运营数据库、离线数据仓库、实时数据仓库和集成数据仓库。
  • 数据仓库的四个主要组成部分是加载管理器、仓库管理器、查询管理器和终端用户访问工具。
  • 数据仓库广泛应用于航空、银行、医疗、保险、零售等多个行业。
  • 实施数据仓库是一个三管齐下的策略,即企业战略、分阶段交付和迭代原型设计。
  • 数据仓库允许业务用户从一些来源快速访问所有关键数据,集中在一处。