一.安装过程排坑
1. 硬件环境准备
排坑 1
首先,服务器至少需要 2 台,每台服务器至少需要 2 块网卡,并且必须有预留 心跳线网口,不能被其他业务占用,否则容易出现脑裂。
2. 通过配置管理工具导入安装包
软件包如下:
ha-deps-zyj-arm-1.0.0-3.ky10.aarch64.rpm
neokylinha-zyj-2.0.0-16.ky10.aarch64.rpm
ha-api-1.0.0-17.zyj.ky10.noarch.rpm
ha-scripts-2.0.0-1.ky10.noarch.rpm
排坑 2
此问题多次遇到,其他 zyj 工程师在对目前 zyj-ha 情况不清楚时,按照文档安装, 安装后报错。目前 ha-scripts 的 rpm 包有升级,目前 zyj-ha 飞腾版一共有五个包, 最新版本为 ha-scripts-2.0.0-3.ky10.noarch.rpm,正确流程是
先安装前四个安装包,最后装 ha-scripts-2.0.0-1.ky10.noarch.rpm,进行更新,最 终在可信华泰配置管理中只会显示最终版本。注意:卸载后不会显示原版本。
3.安装后端口放行
用安全卡管理融合工具对以下端口进行放行: 8088 2224 5405 5406
排坑 3
军工集团办公大多数 ha 所应用的都是监控中间件,尤其是东方通中间件,经常 会遇到端口占用的情况。在部署前需要告知东方通,不要占用 8090 端口。
也就是目前 zyj 实际业务需要开放的端口,及禁止其他应用占用的端口有: 8088 2224 5404 5405 5406 8090
4.重置口令
在控制面板中,重置 hacluster 用户的口令。口令为专用机普通用户口令。
5.授权用户
使用安全卡管理融合工具授权 hacluster 用户允许登录。
排坑 4
检查没有任何问题,口令已重置,用户授权已放开,就是无法进行注册,提示无 效用户,无法获取注册信息。需注意:授权用户的时间区间,一般三合一厂商工程师犯懒如设定 24 小时,可能导致用 户授权失效,尽量让厂商设定在工作时间 8 小时,且在实施时间段内。
6.设置 hosts 文件
在/etc/hosts 文件中正确设置集群各节点的名称,对应 ip 地址。主网卡 ip 和心跳 网卡 ip 均需要配置对应的节点名称。
排坑 5
配置完成后不要忘记将/etc/hosts 拷贝至/opt/ha/etc/下,虽然可以正常注册及启 动 ha,并可以使用 web 管理功能,但如遇到宕机或应用停止,无法切换至备机
7.启动 ha,进行节点认证用户注册
所有节点上启动 pcsd 服务,并进行节点认证(任一节点上执行)
启动 systemctl start pcsd
节点注册 pcs host auth host1 host2
排坑 6
检查没有任何问题,口令已重置,用户授权已放开,就是无法进行注册,提示无 效用户,无法获取注册信息。需注意:
多次遇到已放行用户,在正确放行时间节点,无法进行注册,原因是用户被系统 锁定,具体原因未知,需要切换到安全用户,进行解锁
解锁命令:pam_tally2 -r -u hacluster
8. 启动 ha-api
启动 ha-api,打开 web 管理权限
使用命令:systemctl start ha-api
排坑 7
发现 web 管理一个节点可用,一个不可用的情况。注意:ha-api 服务非全局生效, 文档未说明,此服务如果需要全部节点都可以进行管理,需要在全部节点均执行 一次,且 HA 服务关闭停止后失效。重启 HA 服务后还需要重新执行启动命令
9.使用 pcs status 查看目前 ha 状态。
排坑 8
使用 pcs status 查看 ha 运行状态时,提示没有此命令,但软件已正常使用多日,
需注意:某些数据库和中间件经常会在安装部署过程中改环境变量,导致 ha 设 置的环境变量被修改。导致 pcs status 不可用。
临时可以用绝对路径。或者手动执行# source /opt/ha/bin/ha_env.sh,将环境变量添加。
二.使用过程排坑
图形界面配置比较简单,参考文档一般不会出错,下面介绍一下几个重要的坑点。
1. web 页面登录
打开浏览器,输入:https://IP:8088,登录集群 web 管理页面。
排坑 9
无法进行登录,提示错误用户名密码,但密码输入正确,需注意: zyj 服务器输错密码 5 次,强制锁定 30 分钟。有可能是集成在联调期间想进行调 试导致。
可到安全管理员解锁用户。
2.配置 vip 和心跳
排坑 10
无法添加 vip 资源。资源添加后,资源颜色飘红,进入资源后,查看 ip 信息,发 现没有保存。需注意: ha 部署节点网卡不可以做双网卡绑定,绑定后 ip 无法进行添加。心跳无法添加
3.回迁资源
这种回迁资源功能,在该资源为处于运行状态的普通资源或者组资源,点击【迁 移】按钮,弹出【迁移资源】对话框,可以将资源迁移到指定节点上运行。还可 以强制迁移,且可设定有效期。
排坑 11
经实际场景测试,此功能有 bug,在 zyj 环境下不可用,如有客户询问,告知目 前功能不完善,还在更新中。强制使用可能会导致业务问题。
4.东方通中间件管理
东方通中间件添加正常,资源启动正常,宕机后,切机状态初步显示正常,但实 际业务没有进行切换,后续 pcs status 状态报错,重新拉应用或使用 pcs resour ce,无法拉起。
排坑 12
由于一般东方通中间件在办公系统应用比较多,属于最常见的中间件厂商软件, 一般可能要求业务的稳定性,多数客户会进行选择东方通作为中间件软件,但一 般使用东方通中间件的客户的 OA 业务非常多,需要拉起各模块的时间比其他客 户业务要长很多。有可能导致主切备时,备设定的默认参数,到不到东方通拉起 的时间要求。重新拉起时,主的默认启动监听时间过小,导致启动也报错。所以 需要通过查看东方通启动和关闭日志,预估一下大概时间,如果有时间较长的情 况,需要我们在元素配置中区别于默认配置。 1. 默认设置 monitor 不变 2. 主动添加 start 配置,将 delay 时间调整至 1000,单位为秒 3. 主动添加 stop 配置,将 delay 时间调整至 1000,单位为秒 4. 另外此类拉起服务需要较长时间的应用,为了保证 ha 的可用性,需告知客户 只敢保证单次切机功能,如服务恢复,建议重新进行 ha 配置主备。
排坑 13
建议按照以下方式的顺序和命令进行重新配置,对比图片节点颜色进行判断查看
1. 使用环境
当服务宕机后触发 HA,HA 将 Vip 漂移到备机上并拉起东方通服务,OA 可正 常使用,主机排查原因修复后,需要把服务重新迁移到主机。
2. 操作步骤
一、 将主机和备机的HA服务 和tongweb服务全部关闭。
host02 确保关闭 tongweb 服务,已无运行的 JAVA 进程
host02 关闭 HA 服务
host01 关闭 HA 服务
注意:不要使用 resource 功能进行主备重置,再切换时可能会有问题。
二、 然后启动 host01 的 HA 服务
执行完成启动后,再执行下 systemctl start ha-api,开启 web 管理界面。
三、 登录 https://ip:8088;输入用户名 hacluster,密码为普通用户默认 密码。
⚫ 检查 host01 启动状态,点位是否显示为绿色。如正常如下图所示,则无需操 作。直接使用 pcs status 命令查看服务状态是否正常,同时监控 tongweb 启 动日志。
⚫ 如点位显示灰色,如下图所示,则需要点击启动按钮
四.等待 tongweb 启动完成后,启动 host02 的 HA 服务,检查各主机的在线状态 及服务状态。
如下图显示,则 HA 已恢复至正常扳机监听状态。登录 OA 进行测试。
使用 VIP 进行查看测试 VIP:8088
看 pcs status 状态没有任何报错信息,即是配置成功
5.共享存储挂载管理
挂载服务起不来,一直飘红,配置没问题。
排坑 14
lsblk 查看实际共享存储的状态,是否能够显示多路径配置,如未正常显示,应该 是客户重启过机器,但没有添加 multipath 服务自启动,将 multipath 启动,并加 入开机自启。