Redis哨兵主要是解决Redis主从同步时主数据库宕机问题,使其能够自动进行故障恢复,提高Redis系统的高可用性。
1. 哨兵的作用:
监控:哨兵通过心跳机制监控主库和从库的存活性。
选主:当主库宕机时,哨兵会选举出一个领导者哨兵来完成主从切换。
通知:哨兵将新主库的地址通知给所有从库和客户端。
2. 监控机制:
a. 哨兵通过配置文件获取主库地址,并定期发送INFO replication命令来获取主从拓扑关系。
b. 哨兵使用pub/sub机制在sentinel:hello频道上发布和订阅消息,以感知其他哨兵的存在。
c. 哨兵每隔1秒向主库、从库和其他哨兵发送PING命令进行探活。
主观下线:单个哨兵在一定时间内没有收到主库响应时,认为主库主观下线。
客观下线:当半数以上哨兵同意主库主观下线时,认为主库客观下线。
3. 选主过程:
a. 一旦主库被认定为客观下线,哨兵之间会进行选举,选出一个领导者哨兵。
b. 选举过程采用过半投票机制,是基于哨兵之间的通信和共识算法。
4. 故障恢复:
领导者哨兵负责故障恢复,包括选出一个健康的从库提升为新主库,并将其他从库配置为新主库的从库。
5. 从库选择:
选择从库时会过滤掉不健康的节点,然后根据优先级、复制偏移量和runid进行排序,选择最优的从库作为新主库。