ETL工具-pentaho企业实战部署

📢📢📢📣📣📣
哈喽!大家好,我是【IT邦德】,江湖人称jeames007,10余年DBA及大数据工作经验
一位上进心十足的【大数据领域博主】!😜😜😜
中国DBA联盟(ACDU)成员,目前服务于工业互联网
擅长主流Oracle、MySQL、PG、高斯及GP 运维开发,备份恢复,安装迁移,性能优化、故障应急处理等。
✨ 如果有对【数据库】感兴趣的【小可爱】,欢迎关注【IT邦德】💞💞💞
❤️❤️❤️感谢各位大可爱小可爱!❤️❤️❤️

文章目录

  • 前言
    • 📣 1.pentaho介绍
    • 📣 2.工具包
    • 3.pentaho Server安装
      • 3.1 JDk的安装
      • 3.2 DB部署
      • 3.3 Server安装
    • 4.客户端部署

前言

pentaho在复杂ETL场景、数据中台、数据湖、物联网及AI平台构建中获得企业客户广泛青睐。

📣 1.pentaho介绍

Kettle是一个颇受认可的开源ETL工具,2006年被Pentaho收购,2015年又被Hitachi Vantara收购,正
式命名为PDI。 PDI EE(企业商用版)改进了PDI CE(开源社区版)在作业调度监控、系统安全机制、高可
用性架构、对接SAP、对接Hadoop、对接AI/ML、 自助式DI/BI等方面之不足,尤其是凭借着原厂兜底的专业
技术支持服务保障,近年来Pentaho EE作为日立数据Lumada战略的核心产品组件, 在复杂ETL场景、数据中台、数据湖、物联网及AI平台构建中获得企业客户广泛青睐。

官网:https://www.hitachivantara.com/en-us/home.html
GitHub:https://github.com/pentaho

在这里插入图片描述

📣 2.工具包

下载地址
https://www.hitachivantara.com/en-us/products/dataops-software/data-integration-
analytics/pentaho-community-edition.html
工具包:
Server端:pentaho-server-ce-9.4.0.0-343.zip
客户端:pdi-ce-9.4.0.0-343.zip
驱动包:ojdbc8.jar

3.pentaho Server安装

3.1 JDk的安装

1.JDK下载
https://www.oracle.com/java/technologies/downloads/#java8-windows
2.JDK压缩包解压
tar -xvf jdk-8u361-linux-x64.tar.gz
3.环境变量导入
用vi /etc/profile进入编辑状态,加入下边这段配置
export JAVA_HOME=/mnt/jdk1.8.0_361
export PATH=$JAVA_HOME/bin:$PATH
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
##环境变量生效
source /etc/profile
##确认安装是否成功
[root@test /root]# java -version
openjdk version "1.8.0_181"
OpenJDK Runtime Environment (build 1.8.0_181-b13)
OpenJDK 64-Bit Server VM (build 25.181-b13, mixed mode)

3.2 DB部署

1.Oracle部署
参考博客:https://jeames.blog.csdn.net/article/details/118666634
2.PG的部署
参考博客:https://jeames.blog.csdn.net/article/details/120052749

3.3 Server安装

1.Server安装包
pentaho-server-ce-9.4.0.0-343.zip

2.新增用户
[root@test ~]# useradd pentaho -d /home/pentaho
[root@test ~]# cd /mnt
[root@test /mnt]#ll
总用量 1402672
-rw-r--r-- 1 root 1436332475 211 17:30 pentaho-server-ce-9.4.0.0-343.zip
[root@test /mnt]# cp pentaho-server-ce-9.4.0.0-343.zip /home/pentaho

3.解压安装包
[root@test ~]# passwd pentaho
[pentaho@test ~]# su - pentaho
[pentaho@pentaho /home/pentaho]# unzip pentaho-server-ce-9.4.0.0-343.zip
[pentaho@pentaho /home/pentaho]# ll
总用量 1402676
drwxr-xr-x 7 pentaho pentaho 4096 119 00:52 pentaho-server
-rw-r--r-- 1 root root 1436332475 211 17:30 pentaho-server-ce-9.4.0.0-
343.zip

4.导入元数据
4.1 Oracle数据源
[root@pentaho /home/pentaho]# cd /home/pentaho/pentaho-server/data/oracle12c
[root@pentaho /home/pentaho/pentaho-server/data/oracle12c]# ll
总用量 20
-rw-rw-r-- 1 pentaho pentaho 840 118 19:06 alter_number_columns.sql
-rw-rw-r-- 1 pentaho pentaho 793 118 19:06 create_jcr_ora.sql
-rw-rw-r-- 1 pentaho pentaho 6112 118 19:06 create_quartz_ora.sql
-rw-rw-r-- 1 pentaho pentaho 715 118 19:06 create_repository_ora.sql
[root@test /root]# cd /home/pentaho/pentaho-server/data/oracle12c
[root@test /home/pentaho/pentaho-server/data/oracle12c]# cp -rf * /home/oracle
[root@test /root]# cd /home/oracle
[root@test /home/oracle]# chown oracle:oinstall *.sql
[root@test /home/oracle]# chmod 775 *.sql
[root@test /root]# su - oracle
[oracle@test /home/oracle]# sqlplus / as sysdba
SQL*Plus: Release 19.0.0.0.0 - Production on Sun Feb 12 20:19:26 2023
Version 19.3.0.0.0
Copyright (c) 1982, 2019, Oracle. All rights reserved.
Connected to:
Oracle Database 19c Enterprise Edition Release 19.0.0.0.0 - Production
Version 19.3.0.0.0
SQL> show pdbs
CON_ID CON_NAME OPEN MODE RESTRICTED
---------- ------------------------------ ---------- ----------
2 PDB$SEED READ ONLY NO
3 ORCLPDB1 READ WRITE NO
## 开PDB库
SQL> alter pluggable database all open;
## 关闭PDB库
SQL> alter pluggable database all close;
SQL> select name,cdb from v$database;
## CDB切到PDB
SQL> alter session set container = ORCLPDB1;
## PDB切到CDB
SQL> conn / as sysdba
--导入源数据
注意:导入的时候记的要按顺序来哈,每个脚本执行后记得推退出重新进入,如果是19C的PDB数据库记得加 @
标识符
SQL> @create_jcr_ora.sql
SQL> @create_quartz_ora.sql
SQL> @create_repository_ora.sql
SQL> @alter_number_columns.sql

5.配置文件修改
--修改配置上传到服务器即可,可参考官网
https://help.hitachivantara.com/Documentation/Pentaho/9.4/Setup/Use_Oracle_as_Your
_Repository_Database_(Archive_installation)
Step 1: Set up Quartz on Oracle
pentaho-server/pentaho-solutions/system/quartz/quartz.properties
Step 2: Set Hibernate settings for Oracle
pentaho-server/pentaho-solutions/system/hibernate/hibernate-settings.xml
Step 3: Replace default version of audit log file with Oracle version
1.Locate the pentaho-server/pentaho-
solutions/system/dialects/oracle10g/audit_sql.xml file.
2.Copy it into the pentaho-server/pentaho-solutions/system directory.
Step 4: Modify Jackrabbit repository information for Oracle

6.Tomcat配置
--JDBC下载链接
https://help.hitachivantara.com/Documentation/Pentaho/9.4/Setup/JDBC_drivers_refer
ence
Step 1: Download driver and apply to the Pentaho Server
1.Download a JDBC Driver JAR from your database vendor or a third-party driver
developer.
2.Copy the JDBC driver JAR you just downloaded to the pentaho-server/tomcat/lib
folder.
3.Copy the hsqldb-2.3.2.jar file to pentaho-server/tomcat/lib if you want to
retain the sample provided by Pentaho.
Step 2: Modify JDBC Connection Information in the Tomcat XML file
1.Consult your database documentation to determine the JDBC class name and the
connection string for your Pentaho Repository database.
2.Navigate to the pentaho-server/tomcat/webapps/pentaho/META-INF directory and
open the context.xml file with any text editor.
3.Add the following code to the file if it does not already exist and replace XE
in the URL setting to reflect the name of your schema.

7.Server启动
[root@test ~]# su - pentaho
[pentaho@pentaho /home/pentaho]# cd pentaho-server
[pentaho@pentaho /home/pentaho/pentaho-server]# ll
总用量 64
drwxr-xr-x 10 pentaho pentaho 303 119 00:52 data
-rw-rw-r-- 1 pentaho pentaho 1276 118 19:06 Encr.bat
-rwxr-xr-x 1 pentaho pentaho 1233 118 19:06 encr.sh
-rw-rw-r-- 1 pentaho pentaho 2252 118 19:06 import-export.bat
-rwxr-xr-x 1 pentaho pentaho 2160 118 19:06 import-export.sh
drwxrwxrwx 2 pentaho pentaho 45 119 00:52 licenses
drwxr-xr-x 5 pentaho pentaho 57 119 00:52 pentaho-solutions
-rw-rw-r-- 1 pentaho pentaho 1714 118 19:06 promptuser.js
-rwxr-xr-x 1 pentaho pentaho 1856 118 19:06 promptuser.sh
-rw-rw-r-- 1 pentaho pentaho 5092 118 19:06 set-pentaho-env.bat
-rwxr-xr-x 1 pentaho pentaho 4634 118 19:06 set-pentaho-env.sh
-rw-rw-r-- 1 pentaho pentaho 2906 118 19:06 start-pentaho.bat
-rw-rw-r-- 1 pentaho pentaho 2100 118 19:06 start-pentaho-debug.bat
-rwxr-xr-x 1 pentaho pentaho 2346 118 19:06 start-pentaho-debug.sh
-rwxr-xr-x 1 pentaho pentaho 3174 118 19:06 start-pentaho.sh
-rw-rw-r-- 1 pentaho pentaho 1633 118 19:06 stop-pentaho.bat
-rwxr-xr-x 1 pentaho pentaho 1546 118 19:06 stop-pentaho.sh
drwxr-xr-x 3 pentaho pentaho 27 119 00:54 third-party-tools
drwxrwxrwx 10 pentaho pentaho 234 118 19:06 tomcat
--启动体制脚本
[pentaho@pentaho /home/pentaho/pentaho-server]# ./start-pentaho.sh
[pentaho@pentaho /home/pentaho/pentaho-server]# ./stop-pentaho.sh
--日志目录
/home/pentaho/pentaho-server/tomcat/logs
tail -f /home/pentaho/pentaho-server/tomcat/logs catalina.out
--网页用于管控任务调度
http://10.128.111.32:8080/pentaho/

8.首次登录后修改密码
用户名:admin 密码;password(初始密码)

在这里插入图片描述
在这里插入图片描述

4.客户端部署

1.解压客户端即可使用
2.配置连接信息
Connect-Repository Manager-Add
http://**.**.**:8080/pentaho
此处记得Display name不能用中文,不然登录后,Connect会看不到
3.用户信息清楚
C:\Users\30112691\.kettle,删除即可
4.数据库连接配置
注意:需要放ojdbc8.jar驱动到 pentaho\pdi-ce-9.4.0.0-343\data-integration\lib目录中。
(DESCRIPTION = (ADDRESS = (PROTOCOL = TCP)(HOST = 10.168.11.10)(PORT = 1521))
(CONNECT_DATA =(SERVER = DEDICATED)(SERVICE_NAME = ORCLPDB1)))
注意:如果保存job有报错,记得Spoon.bat中添加如下的字符集配置
"-Dfile.encoding=UTF-8"

在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/14017.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

TinyOS 配置教程

系列文章目录 TinyOS 系列文章【一】:TinyOS 配置教程 TinyOS 系列文章【二】:Tossim 教程 文章目录 系列文章目录前言1. 安装1.1. 实验环境1.2. TinyOS基础工作1.3. TinyOS 的配置1.4. 安装 java1.5. 安装编译器 2. 测试仿真程序总结 前言 本文主要用…

kafka集群搭建

1.本次搭建涉及3台centos7主机,防火墙与selinux服务均关闭 2.主机参数如下表所示 nameIPportserviceA10.1.60.1122128、2888、3888、9092kafka、zookeeperB10.1.60.1142128、2888、3888、9092kafka、zookeeperC10.1.60.1152128、2888、3888、9092kafka、zookeeper…

让人悲观的国内ChatGPT的未来

最近关于ChatGPT的火爆已经不是简单的AI圈的事了,它已经席卷了所有的IT、媒体圈子,甚至是不同领域不同行业的人,只要你还对于变化与AI有一定的了解,那我相信你一定能知道ChatGPT是什么了。ChatGPT在某种程度上已经是相当于AGI通用…

图论-匈牙利算法学习

本文讲述的是匈牙利算法,即图论中寻找最大匹配的算法。解决的问题是从二分图中找到尽量多的匹配。 原题-华为-HJ28 素数伴侣 描述 题目描述 若两个正整数的和为素数,则这两个正整数称之为“素数伴侣”,如2和5、6和13,它们能应用…

【已解决】SpringBoot 工程 war包服务部署与调用测试

1.开发环境:IDEA,JDK1.8 2.服务打包类型: war包 3.war包部署环境:Linux系统,tomcat服务器,端口号:8081 4.war包部署位置:tomcat-8081/webapps/temp.war 5.服务名为:t…

瑞吉外卖项目——瑞吉外卖

软件开发整体介绍 软件开发流程 需求分析:产品原型、需求规格说明书 设计:产品文档、UI界面设计、概要设计、详细设计、数据库设计 编码:项目代码、单元测试 测试:测试用例、测试报告 上线运维:软件环境安装、配置…

python-day6(补充四:私有属性与函数)

私有属性与函数 私有属性与函数的用途如何定义私有属性与函数如何访问私有属性与函数 私有属性与函数的用途 在面向对象的封装中,私有的属性与函数其根本目的是防止它们在类的外部被使用,python中主要通过命名来进行区分。 把可能使用到的东西封装起来…

从零基础到条码高手:傻瓜式操作,告别excel、AI和PS的烦恼

条形码是一种用于商品识别、库存管理等方面的编码标识系统,它是通过将数字和字符以特定的图案排列组合起来,从而形成一组能被机器扫描和识别的条纹图案。 通常情况下,条形码的生成可以分为如下几个步骤: 1、编号:首先…

数据可视化工具汇总:数字孪生产品的得力助手

数字孪生技术是一项快速发展的新兴技术,已经在许多领域得到广泛应用。数字孪生技术不仅可以提供完整的虚拟模型,还可以模拟物理系统的行为。在数字孪生技术的推动下,越来越多的数字孪生产品开始涌现出来,为不同的领域提供支持和解…

如何通过FAQ页面减轻客户支持压力,提高工作效率?

作为现代企业不可或缺的一部分,客户支持服务是为客户提供解决方案、回答问题和解决技术难题的关键部分。无论是产品管理还是销售环节,客户支持都是重要的一环。然而,有效地处理技术支持问题和客户请求并不容易。卓越的客户支持需要组织结构&a…

excle表格打印相关问题

ps:无论是打印word,还是打印excel, 最后最好都保存成pdf,再打印。 ps:无论是打印word,还是打印excel, 最后最好都保存成pdf,再打印。 ps:无论是打印word,还是打印excel, 最后最好都保存成pdf,再打印。 …

ThreadLocal InheritableThreadLocal TransmittableThreadLocal的使用以及原理

ThreadLocal 每个线程向ThreadLocal设置值&#xff0c;再取值&#xff0c;实现线程之间的隔离 public class ThreadLocalCase1 {private static ThreadLocal<Integer> threadLocal new ThreadLocal<>();public static void main(String[] args) {Random random …

浅析提高倾斜摄影超大场景的三维模型轻量化的数据质量关键技术

浅析提高倾斜摄影超大场景的三维模型轻量化的数据质量关键技术 倾斜摄影超大场景的三维模型轻量化的质量关键技术主要包括&#xff1a; 1、保持数据精度。在进行轻量化处理时&#xff0c;必须确保数据的精度不受损失&#xff0c;否则会影响后续分析和应用方案。因此&#xff0…

【Leetcode -剑指Offer 22.链表中倒数第k个结点 -203.移除链表元素】

Leetcode Leetcode -剑指Offer 22.链表中倒数第k个结点Leetcode -203.移除链表元素 Leetcode -剑指Offer 22.链表中倒数第k个结点 题目&#xff1a;输入一个链表&#xff0c;输出该链表中倒数第k个节点。为了符合大多数人的习惯&#xff0c;本题从1开始计数&#xff0c;即链表…

DAY829

学习目标&#xff1a;成就上瘾&#xff0c;学到欲罢不能 4月&#xff08;复习完高数18讲内容&#xff0c;背诵21篇短文&#xff0c;熟词僻义300词基础词&#xff09; 学习内容&#xff1a; 暴力英语&#xff1a;背单词150个&#xff0c;背《死亡诗社》经典语段&#xff0c;抄写…

【Spring Cloud】Spring Cloud 是什么?

文章目录 前言一、子项目二、常用组件三、把 Spring Cloud 官方、Netflix、Alibaba 三者整理成如下表格&#xff1a; 前言 Spring 以 Bean&#xff08;对象&#xff09; 为中心&#xff0c;提供 IOC、AOP 等功能。Spring Boot 以 Application&#xff08;应用&#xff09; 为中…

LightGBM面试题

1.偏差 vs 方差? 偏差是指由有所采样得到的大小为m的训练数据集&#xff0c;训练出的所有模型的输出的平均值和真实模型输出之间的偏差。 通常是由对学习算法做了错误的假设导致的描述模型输出结果的期望与样本真实结果的差距。分类器表达能力有限导致的系统性错误&#xff0c…

linux学习记录 和文件系统相关的命令

记录过程&#xff0c;会有错误,硬链接与软链接哪里可能没有说清楚 文件,目录操作命令 pwd 获取当前处于哪个目录当中&#xff0c;返回的是绝对路径 [rootlocalhost home]# pwd /homecd cd 相对/绝对路径 切换目录的&#xff0c;change directory .代表当前目录 …代表上一级…

基于opencv-python的深度学习模块案例

目录 图像分类 目标检测 人脸检测 姿态估计 车辆检测 一、图像分类 图像分类是基于深度学习的计算机视觉任务中最简单、也是最基础的一类&#xff0c;它其中用到的CNN特征提取技术也是目标检测、目标分割等视觉任务的基础。 具体到图像分类任务而言&#xff0c;其具体流…

PowerShell install go+caddy+filebrowser+nssm 实现部署文件系统

filebrowser filebrowser 是一个使用go语言编写的软件&#xff0c;功能是可以通过浏览器对服务器上的文件进行管理。可以是修改文件&#xff0c;或者是添加删除文件&#xff0c;甚至可以分享文件&#xff0c;是一个很棒的文件管理器&#xff0c;你甚至可以当成一个网盘来使用。…