Pentaho 数据集成教程
什么是 Pentaho BI?
Pentaho 是一款商业智能工具,为客户提供广泛的商业智能解决方案。它能够进行报表制作、数据分析、数据集成、数据挖掘等。Pentaho 还提供一套全面的 BI 功能,可帮助您提高业务绩效和效率。
Pentaho 的特点
以下是 Pentaho 的重要特点
- 满足商业智能需求的 ETL 能力
- 了解 Pentaho 报表设计器
- 产品专业知识
- 提供并排子报表
- 解锁新功能
- 专业支持
- 查询与报表
- 提供增强功能
- 来自数据源的完全运行时元数据支持
Pentaho BI 套件
现在,我们将在本 Pentaho 教程中学习 Pentaho BI 套件
Pentaho BI 套件包括以下组件
Pentaho 报表
Pentaho 报表依赖于 JFreeReport 项目。它能帮助您满足业务报表需求。该组件还支持以 XLS、PDF、TXT 和 HTML 等流行格式进行计划性和按需报表发布。
分析
它提供广泛的分析功能,包括数据透视表视图。该工具提供了增强的 GUI 功能(使用 Flash 或 SVG)、集成的仪表板小部件、门户和工作流集成。
此外,Pentaho 电子表格服务允许用户在 MS Excel 中进行浏览、透视和使用图表。
仪表板
仪表板提供报表和分析功能,为 Pentaho 仪表板贡献内容。自助式仪表板设计器包含大量内置的仪表板模板和布局。它允许业务用户只需少量培训即可构建个性化仪表板。
数据挖掘
数据挖掘工具可以发现隐藏的模式和未来表现的指标。它提供了来自 Weka 项目的最全面的机器学习算法集,包括聚类、决策树、随机森林、主成分分析、神经网络等。
它允许您以图形方式查看数据、以编程方式与之交互,或使用多个数据源进行报表、进一步分析和其他流程。
Pentaho 数据集成
该组件用于集成存在于任何地方的数据。
丰富的转换库,包含超过150个开箱即用的映射对象。
它支持广泛的数据源,包括超过30个开源和专有数据库平台、平面文件。它还通过集成和管理 Hadoop 数据来帮助大数据分析。
谁在使用 Pentaho BI?
Pentaho BI 被许多软件专业人士广泛使用,例如
- 开源软件程序员
- 业务分析师和研究员
- 大学生
- 商业智能顾问
如何在 AWS 中安装 Pentaho
以下是在 AWS 中安装 Pentaho 的分步过程。
第1步) 点击“继续订阅”
访问 https://aws.amazon.com/marketplace/pp/prodview-mce2xdbgie4ro 并点击“继续”
第2步) 接受条款和条件
在下一页,接受许可协议
第3步) 点击“继续配置”
继续进行配置
第4步) 点击“继续启动”
保持默认设置,然后点击启动
第5步) 等待5分钟让实例启动
检查使用说明并等待
第6步) 获取公网 IP
复制实例的公网 IP。
第7步) 使用公网 IP 登录
粘贴实例的公网 IP 以访问 Pentaho。
Pentaho 的先决条件
- 硬件要求
- 软件要求
- 下载并安装 BI 套件
- 启动 BI 套件
- BI 套件的管理
硬件要求
只要您能满足最低软件要求,Pentaho Bl Suite 软件对计算机或网络硬件没有固定限制。安装这个商业智能工具很容易。然而,有一套推荐的系统规格
内存 | 最低 2GB |
硬盘空间 | 最低 1GB |
处理器 | 双核 EM64T 或 AMD64 |
软件要求
- 安装 Sun JRE 5.0
- 环境可以是 32 位或 64 位
- 支持的操作系统:Linux、Solaris、Windows、Mac
- 一个拥有现代网络浏览器界面的工作站,如 Chrome、Internet Explorer、Firefox
启动 Bl 服务器
- 在 Windows 上,从开始按钮点击启动 Bl 服务器图标。
- 在 Linux 操作系统上,在 /biserver-ce/ 目录下运行 start-pentaho 脚本
启动管理服务器
- 在 Windows 上,从开始按钮点击启动 Bl 企业服务器。
- 对于 Linux:转到命令窗口并在 /biserver-ce/administration-console/ 目录下运行启动脚本。
停止管理服务器
- 要在 Windows 中停止服务器,请点击停止 bi-server 图标。
- 在 Linux 上,您需要转到终端,进入安装目录并运行 stop.bat
Pentaho 管理控制台
报表设计器
它是一个高级报表创建工具。如果您想构建一个完整的数据驱动报表,这是一个理想的工具。该工具比 Pentaho 用户控制台的即席报表功能提供更多的灵活性和功能。
设计工作室
这是一个基于 Eclipse 的工具。它允许您手动编辑报表或分析。它广泛用于对现有报表进行无法通过报表设计器添加的修改。
聚合设计器
这个图形工具可让您提高 Mondrian 多维数据集的效率。
元数据编辑器
它用于向任何现有数据源添加自定义元数据层。
Pentaho 数据集成
Kettle 提取、转换和加载 (ETL) 工具,可实现
Pentaho 工具 vs. BI 堆栈
Pentaho 工具 | BI 堆栈 |
---|---|
数据集成 (PDI) | ETL |
它提供元数据编辑器 | 它提供元数据管理 |
Pentaho BA | 分析 |
报表设计器 | 操作性报表 |
Saiku | 即席报表 |
CDE | 仪表板 |
Pentaho 用户控制台 (PUC) | 治理/监控 |
Pentaho 的优势
现在在这个 Pentaho 数据集成教程中,我们将学习 Pentaho 商业智能工具的一些优点
- Pentaho BI 是一个非常直观的工具。掌握一些基本概念后,您就可以使用它。
- 简单易用的商业智能工具
- 提供广泛的 BI 功能,包括报表、仪表板、交互式分析、数据集成、数据挖掘等。
- 配备用户友好的界面,并提供各种工具从多个数据源检索数据
- 提供单一软件包来处理数据
- 拥有一个有很多贡献者的社区版以及企业版。
- 能够在 Hadoop 集群上运行
- 在步骤组件中编写的 JavaScript 代码可以在其他组件中重用。
Pentaho 的缺点
以下是使用 Pentaho BI 工具的缺点/弊端
- 界面设计可能较弱,并且所有组件没有统一的界面。
- 与其他 BI 工具相比,工具演进速度慢得多。
- Pentaho Business analytics 提供的组件数量有限。
- 社区支持较差。因此,如果您无法获得一个可用的组件,您需要等到下一个版本发布。
摘要
- Pentaho 是一款商业智能工具,为客户提供广泛的商业智能解决方案
- 它为商业智能需求提供 ETL 功能。
- Pentaho 套件提供报表、分析、仪表板和数据挖掘等组件
- Pentaho 商业智能被 1) 业务分析师 2) 开源软件程序员 3) 研究人员和 4) 大学生广泛使用。
- Pentaho 的安装过程包括:1) 硬件要求 2) 软件要求, 3) 下载 BI 套件, 4) 启动 BI 套件, 和 5) BI 套件的管理
- Pentaho 管理控制台的重要组件是 1) 报表设计器, 2) 设计工作室, 3) 聚合设计器 4) 元数据编辑器 5) Pentaho 数据集成
- Pentaho 是一个数据集成 (PDI) 工具,而 BI 堆栈是一个 ETL 工具。
- Pentaho 的最大优势是它是一个简单易用的商业智能工具。
- Pentaho 的主要缺点是,与其他 BI 工具相比,它的工具演进速度要慢得多