什么是 OLAP?数据仓库中的多维数据集、分析操作

什么是 OLAP?

在线分析处理(OLAP)是一种软件类别,允许用户同时分析来自多个数据库系统的信息。它是一种使分析师能够从不同角度提取和查看业务数据的技术。

分析师经常需要对数据进行分组、聚合和连接。这些数据挖掘中的 OLAP 操作是资源密集型的。通过 OLAP,数据可以进行预计算和预聚合,从而加快分析速度。

OLAP 数据库分为一个或多个多维数据集。这些多维数据集的设计使得创建和查看报告变得容易。OLAP 代表在线分析处理。

OLAP 多维数据集

OLAP Cube
OLAP 多维数据集

OLAP 概念的核心是 OLAP 多维数据集。OLAP 多维数据集是一种经过优化,可实现快速数据分析的数据结构。

OLAP 多维数据集由称为度量的数值事实组成,这些事实按维度分类。OLAP 多维数据集也称为超立方体

通常,数据操作和分析是使用简单的电子表格进行的,其中数据值以行和列格式排列。这对于二维数据来说是理想的。但是,OLAP 包含多维数据,数据通常来自不同且不相关的来源。使用电子表格不是最佳选择。多维数据集可以逻辑且有序地存储和分析多维数据。

它是如何运作的?

数据仓库将从多种数据源和格式中提取信息,例如文本文件、Excel 工作表、多媒体文件等。

提取的数据经过清洗和转换。数据加载到 OLAP 服务器(或 OLAP 多维数据集)中,在那里预先计算信息以供进一步分析。

OLAP 的基本分析操作

四种分析性 OLAP 操作类型是

  1. 上卷 (Roll-up)
  2. 下钻 (Drill-down)
  3. 切片和切块 (Slice and dice)
  4. 旋转 (Pivot)

1) 上卷 (Roll-up)

上卷也称为“合并”或“聚合”。上卷操作可以通过两种方式执行

  1. 减少维度
  2. 向上攀升概念层次结构。概念层次结构是根据事物顺序或级别对事物进行分组的系统。

考虑以下图表

Roll-up operation in OLAP
OLAP 中的上卷操作
  • 在此示例中,新泽西和洛杉矶两座城市被上卷到美国这个国家。
  • 新泽西和洛杉矶的销售额分别为 440 和 1560。上卷后它们变为 2000。
  • 在此聚合过程中,数据位置层次结构从城市向上移动到国家。
  • 在上卷过程中,至少需要删除一个或多个维度。在此示例中,删除了城市维度。

2) 下钻 (Drill-down)

在下钻中,数据被分解成更小的部分。它与上卷过程相反。它可以通过以下方式完成:

  • 向下移动概念层次结构
  • 增加一个维度
Drill-down operation in OLAP
OLAP 中的下钻操作

考虑上图

  • 第一季度 (Q1) 下钻到一月、二月和三月。相应的销售额也已记录。
  • 在此示例中,增加了月份维度。

3) 切片 (Slice)

在这里,选择一个维度,并创建一个新的子多维数据集。

下图解释了切片操作的执行方式

Slice operation in OLAP
OLAP 中的切片操作
  • 维度“时间”以 Q1 作为过滤器进行切片。
  • 创建了一个全新的多维数据集。

切块 (Dice)

此操作类似于切片。切块的区别在于您选择两个或更多维度,从而创建一个子多维数据集。

Dice operation in OLAP
OLAP 中的切块操作

4) 旋转 (Pivot)

在旋转中,您旋转数据轴以提供数据的替代表示。

在以下示例中,旋转基于项目类型。

Pivot operation in OLAP
OLAP 中的旋转操作

OLAP 系统的类型

OLAP 分层结构

Types of OLAP Systems
OLAP 系统的类型
OLAP 类型 解释
关系型 OLAP (ROLAP) ROLAP 是扩展的 RDBMS,具有多维数据映射以执行标准关系操作。
多维 OLAP (MOLAP) MOLAP 在多维数据中实现操作。
混合在线分析处理 (HOLAP) 在 HOLAP 方法中,聚合的总数存储在多维数据库中,而详细数据存储在关系数据库中。这既提供了 ROLAP 模型的数据效率,又提供了 MOLAP 模型的性能。
桌面 OLAP (DOLAP) 在桌面 OLAP 中,用户将一部分数据从数据库下载到本地或其桌面并进行分析。

DOLAP 的部署成本相对较低,因为它与其他 OLAP 系统相比功能很少。

Web OLAP (WOLAP) Web OLAP 是可通过 Web 浏览器访问的 OLAP 系统。WOLAP 是一种三层架构。它由三个组件组成:客户端、中间件和数据库服务器。
移动 OLAP 移动 OLAP 帮助用户使用移动设备访问和分析 OLAP 数据。
空间 OLAP SOLAP 的创建旨在促进地理信息系统 (GIS) 中空间和非空间数据的管理。

ROLAP

ROLAP 处理关系数据库中存在的数据。事实表和维度表存储为关系表。它还允许对数据进行多维分析,并且是增长最快的 OLAP。

ROLAP 模型的优点

  • 高数据效率。它提供高数据效率,因为查询性能和访问语言特别针对多维数据分析进行了优化。
  • 可伸缩性。这种类型的 OLAP 系统为管理大量数据提供了可伸缩性,即使数据在稳步增长。

ROLAP 模型的缺点

  • 对更高资源的需求: ROLAP 需要大量的人力、软件和硬件资源。
  • 聚合数据限制。 ROLAP 工具使用SQL 来计算所有聚合数据。但是,对于处理计算没有设定限制。
  • 查询性能慢。与 MOLAP 相比,此模型中的查询性能较慢。

MOLAP

MOLAP 使用基于数组的多维存储引擎来显示数据的多维视图。基本上,它们使用 OLAP 多维数据集。

在此处了解有关 MOLAP 的更多信息here

混合 OLAP

混合 OLAP 是 ROLAP 和 MOLAP 的混合。它提供了 MOLAP 的快速计算和 ROLAP 的更高可伸缩性。HOLAP 使用两个数据库。

  1. 聚合或计算的数据存储在多维 OLAP 多维数据集中
  2. 详细信息存储在关系数据库中。

混合 OLAP 的优势

  • 这种 OLAP 有助于节省磁盘空间,并且它仍然紧凑,有助于避免与访问速度和便利性相关的问题。
  • 混合 HOLAP 使用多维数据集技术,可为所有类型的数据提供更快的性能。
  • ROLAP 即时更新,HOLAP 用户可以访问这些实时即时更新的数据。MOLAP 带来数据的清洗和转换,从而提高数据相关性。这带来了两全其美的优势。

混合 OLAP 的缺点

  • 更高的复杂性:HOLAP 系统的主要缺点是它同时支持 ROLAP 和 MOLAP 工具和应用程序。因此,它非常复杂。
  • 潜在的重叠:尤其是在其功能方面,存在更高的重叠可能性。

OLAP 的优势

  • OLAP 是一个适用于所有类型业务的平台,包括规划、预算、报告和分析。
  • OLAP 多维数据集中的信息和计算是一致的。这是一个重要的好处。
  • 快速创建和分析“假设”场景
  • 轻松搜索 OLAP 数据库以查找广泛或特定的术语。
  • OLAP 为业务建模工具、数据挖掘工具、绩效报告工具提供了构建块。
  • 允许用户通过各种维度、度量和过滤器对多维数据集数据进行切片和切块。
  • 它非常适合分析时间序列。
  • 使用 OLAP 很容易找到一些聚类和异常值。
  • 它是一个强大的可视化在线分析处理系统,提供更快的响应时间。

OLAP 的缺点

  • OLAP 需要将数据组织成星型或雪花型模式。这些模式实现和管理起来很复杂。
  • 单个 OLAP 多维数据集中不能有大量维度。
  • 无法使用 OLAP 系统访问事务数据。
  • OLAP 多维数据集中的任何修改都需要完全更新多维数据集。这是一个耗时的过程。

摘要

  • 数据仓库中的 OLAP 是一种技术,它使分析师能够从不同角度提取和查看业务数据。
  • OLAP 概念的核心是 OLAP 多维数据集。
  • 各种业务应用程序和其他数据操作需要使用 OLAP 多维数据集。
  • 数据仓库中主要有五种分析性 OLAP 操作:1) 上卷 2) 下钻 3) 切片 4) 切块和 5) 旋转。
  • 三种广泛使用的 OLAP 系统类型是 MOLAP、ROLAP 和混合 OLAP。
  • 桌面 OLAP、Web OLAP 和移动 OLAP 是其他一些 OLAP 系统类型。