集群管理
计算节点集群
集群管理主要为用户提供对计算节点集群的部署、添加、启停监控、删除等管理操作。
集群管理记录
集群管理页面显示已部署或已添加的计算节点集群信息。可以通过左上角搜索框模糊搜索计算节点集群名称进行快速查找。同时也可以通过右侧展开展开/隐藏更多按钮控制集群列表所需展示的信息内容。
表格字段说明:
- 集群名称:一组计算节点的集群名称,可用于区别其他计算节点集群。在整个管理平台中该名称是唯一的,点击集群名称可进入“编辑计算节点集群”页面。
提示
集群名称颜色说明: 红色代表该集群已被管理平台停止监控;黄色代表主备模式的集群高可用环境需要进行重建;蓝色代表管理平台正常开启监控的集群。
-
集群模式:目前支持计算节点集群模式有单节点、主备节点、多节点,具体详细说明可参考名词解释功能使用手册,模式底部显示的为计算节点的版本号。
-
组件名称:计算节点名称用于表示集群内不同计算节点的区别。在主备节点模式的集群中若为计算节点配置了服务器的SSH信息,则名称旁会显示当前Keepalived虚拟IP(VIP)标志,方便用户快速了解当前集群中的主计算节点位置;若计算节点开启了只读模式,则组件名称旁显示“只读”字样。
-
IP地址:计算节点部署的服务器IP,支持IPv6地址格式。
-
服务端口:计算节点对外提供数据服务的端口号,可在server.xml配置文件中修改。
-
管理端口:计算节点对外提供监控管理查询的端口,可在server.xml配置文件中修改。
-
类型:主备节点模式下的计算节点集群可标识计算节点的主备角色,在单节点与多节点模式的集群中该字段意义不大。
-
计算节点:该字段隶属于集群部署信息中,主要显示计算节点服务程序当前的运行状态。如果不是当前管理平台部署出来的计算节点集群,该字段显示为空。
-
高可用组件:在主备节点模式的集群中该字段主要展示Keepalived组件运行状态,在多节点模式的集群中展示LVS组件运行状态;同时会展示LVS的虚拟IP地址(VIP)。如果不是当前管理平台部署出来的计算节点集群,该字段显示为空。
-
配置库:显示计算节点集群所用的配置库运行状态,同样如果不是当前管理平台部署出来的计算节点集群,该字段显示为空。
-
NTPD时间服务:显示计算节点集群上安装的NTPD时间服务运行状态。
-
存储节点:显示计算节点集群中的所有存储节点运行状态。
-
部署环境得分:成功进行过“部署环境体检”功能的计算节点集群会显示最新体检的得分。
-
集群操作:若集群是在当前管理平台通过“集群部署”功能添加的则在集群操作栏中会显示【部署拓扑】按钮,点击可查看部署集群的组件拓扑架构;若集群模式为“主备节点”则操作栏会根据集群当前高可用重建环境是否满足切换条件来显示【重建】或【切换】按钮。
-
开启容灾模式并符合条件的集群,会现实【切换为主机房】、【移除机房】、【修复机房】等按钮,均可参考可视化机房切换、修复、移除、演练功能使用手册。
功能按钮说明:
-
集群部署:从0开始部署一整套计算节点集群,具体功能描述请参考安装部署功能使用手册。
-
集群添加:为管理平台手动添加计算节点集群(计算节点已在线下完成部署)信息。
-
更多->开启监控:对已停止监控的计算节点集群(集群名称为红色背景显示)进行重新开启监控。
-
更多->停止监控:对正在监控的计算节点集群停止监控,则管理平台不再对该集群进行状态监控,停止监控的集群用户登录普通用户角色页面时无法查看。
-
更多->删除集群:对页面中已管理的计算节点集群进行删除。
-
更多->机房切换演练:可参考可视化机房切换、修复、移除、演练功能使用手册。
集群添加
针对部分用户线下手动部署出来的计算节点集群需要加入管理平台中进行纳管,集群管理功能提供集群添加。用户只需按填写要求将信息填入管理平台中即可完成对计算节点集群的管理和监控。
在集群管理页面点击【集群添加】进入“添加计算节点集群”页面。
填写说明:
(一)集群信息
-
选择已部署集群的集群模式,不同模式输入的参数要求也不同。
-
集群名称与当前已有计算节点集群名称不重复即可。
-
集群网段只在“集群模式”为“多节点”时出现,为部署的计算节点所属网段,填写格式为:IP/子网掩码长度,例192.168.200.0/24。可在server.xml中查看或修改该参数。
-
通信端口只在“集群模式”为“多节点”时出现,为部署的集群内多个计算节点间通信时使用的端口。可在server.xml中查看或修改该参数。
-
“手动设置配置库”默认不勾选即不要求填写,只有在添加的计算节点无法正常连接管理端口(一般为3325)时需要用户手动指定配置库地址。
-
手动配置库指定需要选择配置库复制模式,然后按照已给出示例填写配置库地址,配置库用户名与配置库密码为连接配置库实例的账户与密码。
注意
任何复制模式的配置库,都强烈要求server.xml中配置库连接地址与实际配置库所在服务器IP地址一致,不能配置为127.0.0.1或localhost,主要为避免管理平台与计算节点服务不在同一台服务器上时,管理平台获取多个配置库地址会存在误判实际地址的风险
(二)计算节点
-
不同“集群模式”显示需要配置的计算节点记录也不同,“单节点”模式只需要配置一条记录,“主备节点”模式需要配置一主一备两条记录,“多节点”模式需要至少配置三条,最多不超过九条记录。
-
带红色*号的字段为必填项,包括:计算节点名称、主机名、用户名、密码、服务端口、管理端口。
-
未带红色*号的字段为非必填项,但在计算节点集群为主备模式时,建议用户填写因为后期高可用重建与高可用切换需要使用这些参数值。
-
填写完成计算节点信息后,可通过【测试】按钮测试计算节点是否可连接。连接异常与连接成功效果如下图所示:。
注意
备注:其他更多容灾模式、多计算节点集群模式的添加注意事项,可查看安装部署、跨机房容灾等其他配套文档。
5.若当前已有的计算节点集群数量(包括停止监控和正常监控的)已经达到平台许可证授权的可用计算节点集群组数,则计算节点集群管理页面点击【集群添加】按钮时,3s即逝提醒:“超过平台授权的可用计算节点集群组数,禁止添加”
Note:
HA模式下在做扩容操作时需要关闭掉计算节点服务状态的提醒 不然自动高可用重建过程会干扰扩容流程。
高可用切换
在主备模式集群中,如果集群满足高可用切换的条件,则在集群记录“集群操作”一栏中可点击【切换】按钮进行手动计算节点主备切换操作。
高可用切换操作说明
高可用切换主要包含:SSH与配置文件确认、切换预检测、高可用切换、完成切换四个步骤。上一步骤未完成不允许进入下一步骤,所有步骤均完成代表高可用切换成功。
(一)SSH与配置文件位置确认
-
此步骤主要确认主备计算节点配置的SSH连接信息与配置文件(server.xml与keepalived.conf)存放地址是否填写正确。
-
SSH登录方式可选择用户密码登录或免密登录,测试连接成功会自动保存连接信息。
-
当前主备计算节点服务器的SSH连接用户必须为root或具有sudo操作权限的用户。
-
SSH登录方式若选择免密登录,管理平台所在服务器需预先对其启动账号设置公钥并拷贝到待访问的服务器(注:免密用户需与当前启动管理平台的服务器用户一致)。
-
如果当前连接账号具有免密登录权限,即使选择用户密码登录,输入错误的密码,也会登录成功。SSH服务端优先判断是否有免密权限,有则直接略过密码的校验。
-
配置文件目录需跟真实目录保持一致,否则测试连接失败。
-
若在“集群添加”中配置了计算节点的SSH信息与配置文件地址,则该页面信息自动带出。只需点击【测试连接】即可校验信息正确性。
-
只有SSH信息与配置文件地址都检测通过,【下一步】按钮才正常开放允许点击进入下一步骤。
(二)切换预检测
-
点击【开始检测】则对当前集群高可用环境进行检验,判断是否符合高可用切换前的要求。
-
此步骤要求所有检测项都通过检测才能进行下一步骤,否则必须人工介入解决不通过项的异常问题。
(三)高可用切换
-
此步骤为高可用切换执行步骤,所有执行项正常完成才代表高可用切换成功。
-
切换前会对备计算节点设置readonly,切换成功后会自动取消设置。
-
页面自动勾选“切换完自动重建高可用环境”,即切换完成后程序自动重建环境。无需人工再次重建即可满足下一次高可用切换操作。
-
若出现执行失败则需要人工介入查看问题并解决。
(四)完成切换
- 到达此步骤则代表高可用切换已完成,可查看当前VIP漂移位置以及主备计算节点服务端口开启关闭情况。
高可用重建
主备模式的集群主要通过server.xml以及keepalived.conf配置文件来标识主备的角色。高可用切换只能从主角色切换至备角色,当计算节点发生过故障切换或手动切换后,为了下次计算节点故障还能顺利回切,除修复故障外,还需要通过高可用重建操作使主备计算节点的配置恢复到可切换状态。管理平台会自动检测计算节点是否高可用,若不满足高可用切换,则会自动重建高可用。并且将操作记录到历史记录,用户可以查看重建情况。若系统重建失败,则需要用户人工排查处理。
不符合高可用切换条件的主备模式集群在“集群操作”栏会显示【重建】按钮。同时集群名称会以黄色背景显示告警,在集群页面顶部有黄色文字提醒重建。
高可用重建操作说明
点击【重建】操作按钮进入高可用重建流程。流程分为:SSH与配置文件位置确认、环境重建检查、高可用环境重建、完成重建四个步骤。
1.SSH与配置文件位置检测
在配置检测前,需要注意以下要点:
-
若在集群添加中已配置过SSH登录信息或配置文件信息,高可用环境重建页面会默认填充相关信息。
-
SSH登录方式可选择用户密码登录或免密登录,测试连接成功会自动保存连接信息。
-
当前主备计算节点服务器的SSH连接用户必须为root或具有sudo操作权限的用户。
-
SSH登录方式若选择免密登录,关系集群数据库可视化管理平台所在服务器需预先对其启动账号设置公钥并拷贝到待访问的服务器(注:免密用户需与当前启动管理平台的服务器用户一致)。
-
如果当前连接账号具有免密登录权限,即使选择用户密码登录,输入错误的密码,也会登录成功。SSH服务端会优先判断是否有免密权限,有则直接略过密码的校验。
-
配置文件目录需跟真实目录保持一致,否则测试连接失败。
-
输入正确的配置信息,测试连接成功,相应的配置会同步保存到计算节点集群中,点击【下一步】,进入环境重建检测页面,若当前页面信息未测试通过,下一步操作按钮是不可触发的。
2.环境重建检查
点击【开始检测】需注意事项:
-
如任意一项检测不通过则停止继续检测,检测失败原因可根据失败错误信息定位处理。
-
配置校验主要检验配置是否合理以及内存中使用的配置与配置库中是否一致,若检测到不一致可通过动态加载来处理,此方法可行但不绝对。
-
检测完成,点击【下一步】进入高可用环境重建页面,若当前页面信息未检测通过则【下一步】操作按钮是不可触发的。
3.高可用环境重建
重建主要为修改相关配置信息具体如下说明:
-
修改主备计算节点server.xml中的(haState、haNodeHost)角色信息。
-
修改主备keepalived配置文件,keepalived配置文件修改点如下:
高可用重建注意事项:
-
点击【开始执行】,如任意一项执行不通过则停止往下执行,执行失败原因可根据失败错误信息定位处理
-
重建过程对于server.xml配置的修改,若实际部署的环境管理网络和运行网络是分离的,则haNodeHost配置可能存在不正确的风险,因目前采用的是服务器连接IP,此情况需人工介入
-
重建执行完成,点击【下一步】进入完成重建页面,若当前页面信息未执行完成或执行失败则【下一步】操作按钮是不可触发的
4.完成重建
高可用重建完成,主备计算节点服务运行正常,完成重建页面可点击【立即切换】进行手动高可用切换操作。
只读计算节点高可用
只读计算节点的高可用切换和重建流程同普通模式一致,只是在切换/重建后是否会释放计算节点的只读属性根据只读计算节点的节点类型决定
- 主计算节点开启只读,执行高可用切换并重建后,备切换为当前主,原主计算节点为当前备且为只读模式
切换前主节点为只读:
切换并重建后原主节点切换为备节点依旧为只读模式:
- 备计算节点开启只读,执行高可用切换并重建后,备切换为当前主并释放只读属性
切换前备节点为只读:
切换并重建后原备节点切换为当前主且释放只读:
切换、移除、修复机房
在计算节点开启容灾模式的情况下,符合条件的计算节点集群可以通过管理平台进行可视化的切换、移除、修复机房操作,因涉及内容较多,详细操作说明可参考可视化机房切换、修复、移除、演练相关文档进行操作。
机房切换演练
在计算节点开启容灾模式的情况下,符合条件的计算节点集群可以通过管理平台进行可视化的机房切换演练操作,因涉及内容较多,详细操作说明同样地可参考可视化机房切换、修复、移除、演练相关文档进行操作。