什么是 OLAP?数据仓库中的多维数据集、分析操作
什么是 OLAP?
在线分析处理(OLAP)是一种软件类别,允许用户同时分析来自多个数据库系统的信息。它是一种使分析师能够从不同角度提取和查看业务数据的技术。
分析师经常需要对数据进行分组、聚合和连接。这些数据挖掘中的 OLAP 操作是资源密集型的。通过 OLAP,数据可以进行预计算和预聚合,从而加快分析速度。
OLAP 数据库分为一个或多个多维数据集。这些多维数据集的设计使得创建和查看报告变得容易。OLAP 代表在线分析处理。
OLAP 多维数据集

OLAP 概念的核心是 OLAP 多维数据集。OLAP 多维数据集是一种经过优化,可实现快速数据分析的数据结构。
OLAP 多维数据集由称为度量的数值事实组成,这些事实按维度分类。OLAP 多维数据集也称为超立方体。
通常,数据操作和分析是使用简单的电子表格进行的,其中数据值以行和列格式排列。这对于二维数据来说是理想的。但是,OLAP 包含多维数据,数据通常来自不同且不相关的来源。使用电子表格不是最佳选择。多维数据集可以逻辑且有序地存储和分析多维数据。
它是如何运作的?
数据仓库将从多种数据源和格式中提取信息,例如文本文件、Excel 工作表、多媒体文件等。
提取的数据经过清洗和转换。数据加载到 OLAP 服务器(或 OLAP 多维数据集)中,在那里预先计算信息以供进一步分析。
OLAP 的基本分析操作
四种分析性 OLAP 操作类型是
- 上卷 (Roll-up)
- 下钻 (Drill-down)
- 切片和切块 (Slice and dice)
- 旋转 (Pivot)
1) 上卷 (Roll-up)
上卷也称为“合并”或“聚合”。上卷操作可以通过两种方式执行
- 减少维度
- 向上攀升概念层次结构。概念层次结构是根据事物顺序或级别对事物进行分组的系统。
考虑以下图表
- 在此示例中,新泽西和洛杉矶两座城市被上卷到美国这个国家。
- 新泽西和洛杉矶的销售额分别为 440 和 1560。上卷后它们变为 2000。
- 在此聚合过程中,数据位置层次结构从城市向上移动到国家。
- 在上卷过程中,至少需要删除一个或多个维度。在此示例中,删除了城市维度。
2) 下钻 (Drill-down)
在下钻中,数据被分解成更小的部分。它与上卷过程相反。它可以通过以下方式完成:
- 向下移动概念层次结构
- 增加一个维度
考虑上图
- 第一季度 (Q1) 下钻到一月、二月和三月。相应的销售额也已记录。
- 在此示例中,增加了月份维度。
3) 切片 (Slice)
在这里,选择一个维度,并创建一个新的子多维数据集。
下图解释了切片操作的执行方式
- 维度“时间”以 Q1 作为过滤器进行切片。
- 创建了一个全新的多维数据集。
切块 (Dice)
此操作类似于切片。切块的区别在于您选择两个或更多维度,从而创建一个子多维数据集。
4) 旋转 (Pivot)
在旋转中,您旋转数据轴以提供数据的替代表示。
在以下示例中,旋转基于项目类型。
OLAP 系统的类型
OLAP 分层结构
OLAP 类型 | 解释 |
---|---|
关系型 OLAP (ROLAP) | ROLAP 是扩展的 RDBMS,具有多维数据映射以执行标准关系操作。 |
多维 OLAP (MOLAP) | MOLAP 在多维数据中实现操作。 |
混合在线分析处理 (HOLAP) | 在 HOLAP 方法中,聚合的总数存储在多维数据库中,而详细数据存储在关系数据库中。这既提供了 ROLAP 模型的数据效率,又提供了 MOLAP 模型的性能。 |
桌面 OLAP (DOLAP) | 在桌面 OLAP 中,用户将一部分数据从数据库下载到本地或其桌面并进行分析。
DOLAP 的部署成本相对较低,因为它与其他 OLAP 系统相比功能很少。 |
Web OLAP (WOLAP) | Web OLAP 是可通过 Web 浏览器访问的 OLAP 系统。WOLAP 是一种三层架构。它由三个组件组成:客户端、中间件和数据库服务器。 |
移动 OLAP | 移动 OLAP 帮助用户使用移动设备访问和分析 OLAP 数据。 |
空间 OLAP | SOLAP 的创建旨在促进地理信息系统 (GIS) 中空间和非空间数据的管理。 |
ROLAP
ROLAP 处理关系数据库中存在的数据。事实表和维度表存储为关系表。它还允许对数据进行多维分析,并且是增长最快的 OLAP。
ROLAP 模型的优点
- 高数据效率。它提供高数据效率,因为查询性能和访问语言特别针对多维数据分析进行了优化。
- 可伸缩性。这种类型的 OLAP 系统为管理大量数据提供了可伸缩性,即使数据在稳步增长。
ROLAP 模型的缺点
- 对更高资源的需求: ROLAP 需要大量的人力、软件和硬件资源。
- 聚合数据限制。 ROLAP 工具使用SQL 来计算所有聚合数据。但是,对于处理计算没有设定限制。
- 查询性能慢。与 MOLAP 相比,此模型中的查询性能较慢。
MOLAP
MOLAP 使用基于数组的多维存储引擎来显示数据的多维视图。基本上,它们使用 OLAP 多维数据集。
在此处了解有关 MOLAP 的更多信息here
混合 OLAP
混合 OLAP 是 ROLAP 和 MOLAP 的混合。它提供了 MOLAP 的快速计算和 ROLAP 的更高可伸缩性。HOLAP 使用两个数据库。
- 聚合或计算的数据存储在多维 OLAP 多维数据集中
- 详细信息存储在关系数据库中。
混合 OLAP 的优势
- 这种 OLAP 有助于节省磁盘空间,并且它仍然紧凑,有助于避免与访问速度和便利性相关的问题。
- 混合 HOLAP 使用多维数据集技术,可为所有类型的数据提供更快的性能。
- ROLAP 即时更新,HOLAP 用户可以访问这些实时即时更新的数据。MOLAP 带来数据的清洗和转换,从而提高数据相关性。这带来了两全其美的优势。
混合 OLAP 的缺点
- 更高的复杂性:HOLAP 系统的主要缺点是它同时支持 ROLAP 和 MOLAP 工具和应用程序。因此,它非常复杂。
- 潜在的重叠:尤其是在其功能方面,存在更高的重叠可能性。
OLAP 的优势
- OLAP 是一个适用于所有类型业务的平台,包括规划、预算、报告和分析。
- OLAP 多维数据集中的信息和计算是一致的。这是一个重要的好处。
- 快速创建和分析“假设”场景
- 轻松搜索 OLAP 数据库以查找广泛或特定的术语。
- OLAP 为业务建模工具、数据挖掘工具、绩效报告工具提供了构建块。
- 允许用户通过各种维度、度量和过滤器对多维数据集数据进行切片和切块。
- 它非常适合分析时间序列。
- 使用 OLAP 很容易找到一些聚类和异常值。
- 它是一个强大的可视化在线分析处理系统,提供更快的响应时间。
OLAP 的缺点
- OLAP 需要将数据组织成星型或雪花型模式。这些模式实现和管理起来很复杂。
- 单个 OLAP 多维数据集中不能有大量维度。
- 无法使用 OLAP 系统访问事务数据。
- OLAP 多维数据集中的任何修改都需要完全更新多维数据集。这是一个耗时的过程。
摘要
- 数据仓库中的 OLAP 是一种技术,它使分析师能够从不同角度提取和查看业务数据。
- OLAP 概念的核心是 OLAP 多维数据集。
- 各种业务应用程序和其他数据操作需要使用 OLAP 多维数据集。
- 数据仓库中主要有五种分析性 OLAP 操作:1) 上卷 2) 下钻 3) 切片 4) 切块和 5) 旋转。
- 三种广泛使用的 OLAP 系统类型是 MOLAP、ROLAP 和混合 OLAP。
- 桌面 OLAP、Web OLAP 和移动 OLAP 是其他一些 OLAP 系统类型。