数据仓库中的数据集市是什么?类型与示例
什么是数据市场?
数据市场专注于组织的一个职能领域,并包含数据仓库中存储数据的子集。数据市场是数据仓库的精简版本,旨在供组织中的特定部门、单元或用户集使用。例如,营销、销售、人力资源或财务。它通常由组织的一个部门控制。
与数据仓库相比,数据市场通常只从少数几个来源提取数据。数据市场规模较小,并且与数据仓库相比更具灵活性。
我们为什么需要数据市场?
- 数据市场通过减少数据量来帮助提高用户响应时间
- 它提供了对经常请求数据的便捷访问。
- 与企业级数据仓库相比,数据市场更易于实现。同时,与实现完整数据仓库相比,实现数据市场的成本无疑更低。
- 与数据仓库相比,数据市场更敏捷。在模型发生变化的情况下,由于规模较小,数据市场可以更快地构建。
- 数据市场由单个主题专家定义。相反,数据仓库是由来自不同领域的跨学科主题专家定义的。因此,与数据仓库相比,数据市场更开放以供更改。
- 数据被分区,并允许非常细粒度的访问控制权限。
- 数据可以被分割并存储在不同的硬件/软件平台上。
数据市场类型
数据市场主要有三种类型
- 依赖型:依赖型数据市场是通过直接从操作源、外部源或两者中提取数据来创建的。
- 独立型:独立型数据市场是在不使用中央数据仓库的情况下创建的。
- 混合型:这种类型的数据市场可以从数据仓库或操作系统中获取数据。
依赖型数据市场
依赖型数据市场允许从单个数据仓库获取组织数据。它是数据市场的一个示例,提供了集中的好处。如果你需要开发一个或多个物理数据市场,那么你需要将它们配置为依赖型数据市场。
数据仓库中的依赖型数据市场可以通过两种不同的方式构建。一种是用户可以根据需要同时访问数据市场和数据仓库,另一种是访问仅限于数据市场。第二种方法不是最优的,因为它有时会产生所谓的“数据垃圾场”。在数据垃圾场中,所有数据都来自一个通用源,但它们被丢弃,并且大部分都成为垃圾。
独立型数据市场
独立型数据市场是在不使用中央数据仓库的情况下创建的。这种数据市场是组织内小型部门的理想选择。
独立型数据市场既不与企业数据仓库有关系,也不与其他任何数据市场有关系。在独立型数据市场中,数据被单独输入,其分析也独立进行。
实施独立型数据市场违背了构建数据仓库的初衷。首先,你需要一个一致、集中的企业数据存储,可以被多个具有不同兴趣的用户进行分析,而这些用户想要广泛的不同信息。
混合型数据市场
混合型数据市场结合了来自数据仓库以外的其他来源的输入。当你需要临时集成时,例如在组织中添加了一个新部门或产品后,这可能很有帮助。
它是最适合多种数据库环境和为任何组织快速实施周转的数据市场示例。它还需要最少的数据清理工作。混合型数据市场还支持大型存储结构,并且最适合灵活的小型数据中心应用程序。
实施数据市场的步骤
实施数据市场是一个有益但复杂的过程。以下是实施数据市场的详细步骤:
设计
设计是数据市场实施的第一阶段。它涵盖了从启动数据市场请求到收集需求信息的所有任务。最后,我们创建逻辑和物理数据市场设计。
设计步骤包括以下任务:
- 收集业务和技术需求并识别数据源。
- 选择适当的数据子集。
- 设计数据市场的逻辑和物理结构。
数据可以根据以下标准进行分区:
- Date
- 业务或职能单元
- 地理区域
- 以上任何组合
数据可以在应用程序或 DBMS 级别进行分区。尽管建议在应用程序级别进行分区,因为它允许每年根据业务环境的变化使用不同的数据模型。
您需要哪些产品和技术?
一支简单的笔和纸就足够了。虽然有助于创建 UML 或 ER 图的工具也会将元数据附加到您的逻辑和物理设计中。
构建
这是实施的第二阶段。它包括创建物理数据库和逻辑结构。
此步骤包括以下任务:
- 实现上一个阶段设计的物理数据库。例如,创建数据库模式对象,如表、索引、视图等。
您需要哪些产品和技术?
您需要一个关系数据库管理系统来构建数据市场。RDBMS 具有数据市场成功所需的几项功能。
- 存储管理:RDBMS 存储和管理数据,以创建、添加和删除数据。
- 快速数据访问:通过 SQL 查询,您可以根据特定条件/过滤器轻松访问数据。
- 数据保护:RDBMS 系统还提供了一种从系统故障(如断电)中恢复的方法。在磁盘发生故障的情况下,它还允许从这些备份中恢复数据。
- 多用户支持:数据管理系统提供并发访问,允许多个用户在不干扰或覆盖另一个用户所做的更改的情况下访问和修改数据。
- 安全性:RDMS 系统还提供了一种方式来管理用户对对象和特定类型操作的访问。
填充
在第三阶段,数据将被填充到数据市场中。
填充步骤包括以下任务:
- 源数据到目标数据映射
- 提取源数据
- 数据的清理和转换操作
- 将数据加载到数据市场
- 创建和存储元数据
您需要哪些产品和技术?
您可以使用ETL(提取、转换、加载)工具来完成这些填充任务。此工具允许您查看数据源,执行源到目标的映射,提取数据,对其进行转换、清理,然后将其加载回数据市场。
在此过程中,该工具还会创建一些元数据,例如数据来源、最近性、对数据进行了哪些类型的更改以及进行了多少级别的汇总。
访问
访问是第四步,涉及将数据投入使用:查询数据、创建报表、图表并发布它们。最终用户向数据库提交查询并显示查询结果。
访问步骤需要执行以下任务:
- 设置元层,该层将数据库结构和对象名称转换为业务术语。这有助于非技术用户轻松访问数据市场。
- 设置和维护数据库结构。
- 如果需要,设置 API 和接口。
您需要哪些产品和技术?
您可以通过命令行或 GUI 访问数据市场。GUI 更受青睐,因为它易于生成图表,并且比命令行更用户友好。
管理
这是数据市场实施过程的最后一步。此步骤涵盖管理任务,例如:
- 持续的用户访问管理。
- 系统优化和微调以实现增强的性能。
- 将新数据添加到数据市场并进行管理。
- 规划恢复场景,并确保在系统发生故障时系统可用。
您需要哪些产品和技术?
您可以使用 GUI 或命令行进行数据市场管理。
实施数据市场的最佳实践
以下是在数据市场实施过程中需要遵循的最佳实践:
- 数据市场的来源应按部门结构化
- 数据市场的实施周期应以短周期衡量,即以周为单位,而不是月或年。
- 让所有利益相关者参与规划和设计阶段非常重要,因为数据市场的实施可能很复杂。
- 数据市场硬件/软件、网络和实施成本应在您的计划中准确地进行预算。
- 即使数据市场是在相同的硬件上创建的,它们也可能需要一些不同的软件来处理用户查询。应评估额外的处理能力和磁盘存储要求以实现快速的用户响应。
- 数据市场可能位于与数据仓库不同的位置。这就是为什么确保它们具有足够高的网络容量以处理将数据传输到数据市场所需的数据量很重要。
- 实施成本应预算数据市场加载过程所需的时间。加载时间随着转换复杂性的增加而增加。
数据市场的优点和缺点
优点
- 数据市场包含组织范围内数据的子集。这些数据对组织中的特定人群非常有价值。
- 它是数据仓库的经济高效的替代方案,而数据仓库的构建成本可能很高。
- 数据市场允许更快地访问数据。
- 数据市场易于使用,因为它专门为满足其用户的需求而设计。因此,数据市场可以加速业务流程。
- 与数据仓库系统相比,数据市场所需的实施时间更少。实施数据市场更快,因为您只需要专注于数据子集。
- 它包含历史数据,使分析人员能够确定数据趋势。
缺点
- 很多时候,企业会创建太多分散且无关的数据市场,但收益却不多。维护起来可能是一个巨大的障碍。
- 由于数据集有限,数据市场无法提供公司范围内的数据分析。
摘要
- 定义数据市场:数据市场被定义为数据仓库的子集,它专注于组织的一个职能领域。
- 数据市场通过减少数据量来帮助提高用户响应时间。
- 数据市场有三种类型:1) 依赖型 2) 独立型 3) 混合型
- 数据市场的重要实施步骤包括:1) 设计 2) 构建 3) 填充 4) 访问和 5) 管理
- 数据市场的实施周期应以短周期衡量,即以周为单位,而不是月或年。
- 数据市场是数据仓库的经济高效的替代方案,而数据仓库的构建成本可能很高。
- 由于数据集有限,数据市场无法提供公司范围内的数据分析。