什么是数据核对?定义、流程、工具
什么是数据对账?
数据对账(DR)定义为数据迁移过程中数据验证的一个过程。在此过程中,将目标数据与源数据进行比较,以确保迁移架构正在传输数据。数据验证和对账(DVR)是指一项使用数学模型来处理信息的技术。
为什么数据对账很重要?
在数据迁移过程中,映射和转换逻辑中可能会出错。运行时故障,如网络中断或事务损坏,可能会损坏数据。
这类错误可能导致数据处于无效状态。这可能会导致一系列问题,例如:
- 缺失记录
- 缺失值
- 错误值
- 重复记录
- 格式错误的数值
- 表格或系统之间的关系中断
以下是使用数据对账流程的重要原因:
- 数据对账的使用有助于从原始测量数据中提取关于行业流程状态的准确可靠信息。
- 它还有助于生成一组最能代表最可能流程操作的统一一致的数据。
- 这还会导致不准确的见解和客户服务问题。
- 数据对账对于企业控制集成也很重要。
除了以上内容,数据对账还有许多优点/好处。
与数据对账相关的术语
毛坯误差 | 测量中的毛坯误差。如果您只使用短时间平均周期,它只反映了偏差误差、仪器故障或异常噪声尖峰。 |
可观测性 | 可观测性分析可以提供有关给定约束集和测量集可以确定哪些变量的详细信息。 |
方差 | 方差是传感器变异性的度量。 |
冗余 | 它有助于使用约束方程确定哪些测量值应从其他变量中估算出来。 |
数据对账的历史
以下是数据对账历史上的重要里程碑。
- DVR(数据验证和对账)始于 20 世纪 60 年代初。其目标是在生产中关闭物料平衡,其中所有变量都可获得原始测量值。
- 到 20 世纪 60 年代末,所有未测量变量都考虑在数据对账过程中。
- Stanley 和 Mah 于 1977 年引入了用于过滤和长时间并行参数估计的准稳态动力学。
- Liebman 于 1992 年开发了动态 DVR,它是一个非线性优化模型。
数据对账流程
数据对账方法的类型包括:
主数据对账
主数据对账是一种仅在源和目标之间对主数据进行对账的技术。主数据本质上是基本不变或变化缓慢的,并且不对数据集进行聚合操作。
主数据对账的一些常见示例包括:
- 总行数
- 源和目标中的总客户数
- 源和目标中的总项目数
- 根据给定条件计算的总行数
- 活动用户数
- 非活动用户数等。
活动准确性
- 您需要确保交易是有效且目的正确的。
- 需要检查交易是否已获得适当授权。
交易数据对账
交易数据是 BI 报告的基础。因此,交易数据中的任何不匹配都会直接影响报告的可靠性以及整个 BI 系统的可靠性。
交易数据对账方法用于计算总和,以防止因更改限定维度的粒度而导致的任何不匹配。
用于交易数据对账的度量示例应为:
- 从源和目标计算的总收入总和
- 从源和目标计算的整个已售商品的总和,等等。
自动化数据对账
在大型数据仓库管理系统中,通过将数据对账过程作为数据加载的组成部分来自动化该过程非常方便。它允许您维护单独加载元数据表。此外,自动化对账将使所有利益相关者了解报告的有效性。
使用数据对账的最佳实践
- 数据对账过程应以纠正测量误差为目标。
- 毛坯误差应为零,以使数据对账过程高效。
- 数据对账的标准方法依赖于简单的记录计数,以跟踪目标记录是否已迁移。
- 数据迁移解决方案提供了类似的对账功能和数据原型功能,可提供完整卷数据对账测试。
数据对账工具
1) OpenRefine
OpenRefine,以前称为 Google Refine,是一个有用的数据库对账框架。它可以让你清理和转换混乱的数据。
下载链接: https://openrefine.org/
2) TIBCO Clarity
此数据对账工具以软件即服务(SaaS)的形式提供按需软件服务。它允许用户验证数据和清理数据。它提供完整的数据对账测试功能。广泛用于 ETL 流程。
下载链接: https://www.tibco.com/
3) Winpure
Winpure 是一款经济实惠且准确的数据清理软件。它可以让你清理大量数据,删除重复项,纠正和标准化以设计最终数据集。
下载链接: https://winpure.com/
摘要
- 数据验证和对账(DVR)是一项使用数学模型处理信息的技术。
- 数据对账的使用有助于从原始测量数据中提取关于行业流程状态的准确可靠信息。
- 毛坯误差、可观测性、方差、冗余是数据对账过程中使用的重要术语。
- 数据验证和对账始于 20 世纪 60 年代初。
- 三种数据对账方法是:1)主数据对账 2)交易数据对账 3)自动化数据对账
- 毛坯误差应为零,以使数据对账过程高效。
- 一些重要的数据对账工具包括:1) OpenRefine 2) TIBCO 3) Winpure
- 该方法广泛用于石油炼制/核/化工行业的性能和过程监控。