Informatica PowerCenter 教程:架构、组件

Informatica PowerCenter 架构

Informatica PowerCenter 的整体架构是面向服务的架构 (SOA)。Informatica ETL 工具架构包含以下服务和组件:

  1. 存储库服务 – 负责维护 Informatica 元数据并向其他服务提供元数据访问。
  2. 集成服务 – 负责数据从源到目标的移动。
  3. 报告服务 – 支持报告的生成。
  4. 节点 – 上述服务执行的计算平台。
  5. Informatica Designer – 用于创建源和目标之间的映射。
  6. Workflow Manager – 用于创建工作流和其他任务及其执行。
  7. Workflow Monitor – 用于监控工作流的执行。
  8. Repository Manager – 用于管理存储库中的对象。
Informatica Architecture Diagram
Informatica 架构图

Informatica 域

Informatica 域是 Informatica 工具中的基本管理单元。它是节点和服务集合。此外,这些节点和服务可以根据管理要求分类到文件夹和子文件夹中。

例如,在下面的屏幕截图中,您可以看到域窗口下创建了名为“Domain_Rajesh”的文件夹,其中我们创建了一个名为“node01_rajesh”的节点和名为“guru99 integration services”的服务。

Domain in Informatica
Informatica 中的域

节点是域内机器的逻辑表示。节点是运行 Informatica 服务和进程所必需的。

您可以在域中有多个节点。在域中,您还会找到一个网关节点。

网关节点负责接收来自不同客户端工具的请求,并将这些请求路由到不同的节点和服务。

域中有两种服务:

  • 服务管理器:服务管理器负责域操作,如身份验证、授权和日志记录。它还在节点上运行应用程序服务,并管理用户和组。
  • 应用程序服务:应用程序服务代表特定于服务器的服务,如集成服务、存储库服务和报告服务。这些服务根据配置在不同的节点上运行。

Informatica PowerCenter 存储库

PowerCenter 存储库是像 Oracle、Sybase、SQL Server 这样的关系数据库,它由存储库服务管理。它包含存储元数据的数据库表。

Informatica PowerCenter 中有三种 Informatica 客户端工具。它们是 Informatica

  • Designer
  • Workflow Monitor
  • Workflow Manager

这些客户端只能通过存储库服务访问存储库。

为了管理存储库,存在一个名为存储库服务的 Informatica 服务。单个存储库服务仅独占处理一个存储库。此外,存储库服务可以在多个节点上执行以提高性能。

存储库服务使用对象锁定,因此多个用户不能同时修改同一对象。

您可以启用存储库中的版本控制。通过版本控制功能,您可以维护同一对象的不同版本。

在存储库中创建的对象可以具有以下三种状态:

  • 有效:有效对象是其语法根据 Informatica 正确的对象。这些对象可用于工作流的执行。
  • 无效:无效对象是不符合指定标准或规则的对象。当在 Informatica 中保存任何对象时,会检查其语法和属性是否有效,并相应地标记对象的状态。
  • 受影响:受影响的对象是其子对象无效的对象。例如,在映射中,如果您使用可重用转换,并且该转换对象无效,那么映射将被标记为“受影响”。

Informatica 中的域配置

如前所述,域是 Informatica 中基本的管理控制。它是包含集成服务、存储库服务和各种节点等其他服务的父实体。

域配置可以使用 Informatica 管理控制台完成。控制台可以通过 Web 浏览器启动。

Domain Configuration in Informatica

在 Web 浏览器中打开后,它会提示管理员登录。密码在 Informatica 安装期间设置。

Domain Configuration in Informatica

登录 Informatica 域后,主页的外观如下所示。

Domain Configuration in Informatica

在左窗格中,它显示域下的现有节点、存储库服务、集成服务。

在主窗口中,它显示这些服务的状态,是已启动还是已停止。

Informatica 域的属性

点击管理页面中的属性菜单以查看域的属性。

Properties of Domain in Informatica

Informatica 域的属性

以下是 Informatica 域的关键属性:

弹性超时 – 如果任何集成服务或存储库服务出现故障,则弹性超时是应用程序服务尝试连接到这些服务的秒数。

重启周期 – 这是域用于重启服务的最大秒数。

调度模式 – 这是负载均衡器用于将任务调度到不同节点的策略。

数据库类型 – 配置域的数据库类型。

数据库主机 – 配置域的机器的主机名。

数据库端口名称 – 这是域的数据库端口和数据库实例名称。

这些属性可以根据需要进行修改。

PowerCenter 客户端与服务器连接

PowerCenter 客户端工具是在客户端机器上安装的开发工具。PowerCenter Designer、Workflow Manager、Repository Manager 和 Workflow Monitor 是主要的客户端工具。

我们在这些客户端工具中创建的映射和对象保存在位于 Informatica 服务器上的 Informatica 存储库中。因此,客户端工具必须与服务器具有网络连接。

另一方面,PowerCenter 客户端连接到源和目标以导入元数据和源/目标结构定义。因此,它还必须与源/目标系统连接。

  • 要连接到集成服务和存储库服务,PowerCenter 客户端使用 TCP/IP 协议和
  • 要连接到源/目标,PowerCenter 客户端使用 ODBC 驱动程序。

Informatica 中的存储库服务

Informatica 中的存储库服务维护从 PowerCenter 客户端到 PowerCenter 存储库的连接。它是一个独立的、多线程的进程,它在存储库内部获取、插入和更新元数据。它还负责维护存储库元数据的一致性。

Repository Service in Informatica
Informatica 中的存储库服务

Informatica 中的集成服务

集成服务是 Informatica 的执行引擎,换句话说,它是执行我们在 Informatica 中创建的任务的实体。工作原理如下:

  • 用户执行一个工作流
  • Informatica 指示集成服务执行工作流
  • 集成服务从存储库读取工作流详细信息
  • 集成服务开始执行工作流中的任务
  • 执行完成后,任务状态会更新,即失败、成功或中止。
  • 执行完成后,会生成会话日志和工作流日志。
  • 此服务负责将数据加载到目标系统。
  • 集成服务还合并来自不同源的数据。

例如,它可以合并来自 Oracle 表和平面文件源的数据。

因此,总而言之,Informatica 集成服务是位于 Informatica 服务器上的一个进程,等待分配任务以供执行。当我们执行工作流时,集成服务会收到执行工作流的通知。然后,集成服务读取工作流以了解详细信息,例如它必须执行哪些任务(如映射)以及何时执行。然后,服务从存储库读取任务详细信息并继续执行。

源和目标

Informatica 作为一个ETL 和数据集成工具,您将始终处理和转换某种形式的数据。我们在 Informatica 中的映射的输入称为源系统。我们从源导入源定义,然后连接到它以在我们的映射中获取源数据。源可以有不同类型,可以位于多个位置。根据您的需求,目标系统可以是关系系统或平面文件系统。平面文件目标将在 Informatica 服务器机器上生成,然后可以通过 ftp 进行传输。

关系型– 这类源是数据库系统表。这些数据库系统通常由创建和维护这些数据的其他应用程序拥有。它可以是客户关系管理数据库、人力资源数据库等。要在 Informatica 中使用此类源,我们可以获取这些数据集的副本,或者在这些系统上获得选择权限。

平面文件 – 在 Informatica 中,平面文件是继关系数据库之后最常见的数据源。平面文件可以是逗号分隔文件、制表符分隔文件或固定宽度文件。Informatica 支持任何代码页,如 ASCII 或 Unicode。要使用平面文件,必须像对关系表一样导入其定义。

摘要

  • Informatica PowerCenter 的整体架构是面向服务的架构 (SOA)。
  • Informatica 域是 Informatica 工具中的基本管理单元。
  • PowerCenter 存储库是像 Oracle、Sybase、SQL Server 这样的关系数据库,它由存储库服务管理。
  • 域配置可以使用 Informatica 管理控制台完成。
  • Informatica 域的属性:弹性超时、重启周期、调度模式、数据库类型、数据库主机和数据库端口及名称。
  • PowerCenter 客户端工具是在客户端机器上安装的开发工具。
  • Informatica 中的存储库服务维护从 PowerCenter 客户端到 PowerCenter 存储库的连接。
  • 集成服务是 Informatica 的执行引擎,换句话说,它是执行我们在 Informatica 中创建的任务的实体。