错误报告:WebSocket 设备连接断开处理问题
项目背景
- 设备通过自启动的客户端连接到服务器,服务器将设备的
mac_address
和设备信息存入 Redis。 - 前端通过 Redis 接口查看设备信息并展示。
问题描述
设备连接到服务器后,前端无法立即看到设备信息。
发现的问题
- 设备连接后直接关机:在设备关机的情况下,服务器未及时收到断开连接的信号。由于 TCP Keep-Alive 的机制,测试中发现需要约 45 秒才会自动触发断开连接。
- 设备重新开机:设备重新启动后重新连接服务器。此时服务器加速了断开连接的触发(约 28 秒),但是服务器错误地删除了 Redis 中的记录。实际上,设备的连接并没有真正断开。通过向 Redis 中重新写入相同的信息,验证了 Redis 中的设备信息并未真正丢失。
目前的处理方式
为了应对上述问题,做了以下改进:
- 增加了校验机制:当服务器接收到断开连接时,增加了对 Redis 中存储的设备信息的检查。
- 心跳机制:为了更好地管理连接,预留了一个 PingPong 心跳机制,用于检测连接的有效性。由于设备端版本原因,并不全支持 pong 回应,暂时未启用这个机制,预留了一个 heartbeat ping 的函数,但它不响应 pong,后续有需要可以进一步完善。
处理方法
在 disconnect
方法中增加了校验机制,以确保只有在正确的条件下删除 Redis 中的设备信息。
@staticmethod
async def disconnect(ws: WebSocket, client: AsyncRedis, mac_address: str) -> None:
remote_ip, remote_port = ws.client
current_client_info = await client.hget(settings.REDIS_WS_CLIENT_KEY, mac_address)
current_client_info = json.loads(current_client_info)
if current_client_info:
logger.info(f"WS_LIFESPAN: {mac_address} 正在清除状态")
# 如果没有 remote port,那么说明这个链接异常,可以直接清理
current_remote_port = current_client_info.get("remote_port", remote_port)
# 如果旧的 ws client port 等于现在的 port,说明存储的信息仍然是当前链接的信息,可以删除
if current_remote_port == remote_port:
await WsService.remove_client(client, mac_address)
logger.info(f"WS_LIFESPAN: {mac_address} 清除状态完成")
else:
logger.info(f"WS_LIFESPAN: {mac_address} 当前连接已被新连接替代,跳过清理")
else:
logger.info(f"WS_LIFESPAN: {mac_address} 未在 Redis 中找到客户端记录,跳过清理")
预留的 heartbeat 如下
async def send_heartbeat():
"""心跳检测
- 目前只在服务器单方面检测
- 如果 ping 发送失败,则认为断线,关闭连接
"""
while True:
await asyncio.sleep(PING_INTERVAL)
try:
ping_msg = {"action": "ping", "timestamp": get_current_datetime_str()}
await ws.send_text(json.dumps(ping_msg))
logger.info(f"WS_LIFESPAN: {mac_address} 发送ping")
except Exception as e:
logger.error(f"WS_LIFESPAN: {mac_address} 发送ping消息失败,连接可能已断开: {str(e)}")
break
# 启动心跳检测任务
# heartbeat_task = asyncio.create_task(send_heartbeat())
在 client 端中预留了一个 pong 机制如下 client >= 0.2.1
async def handle_ping(ws: WebSocketClientProtocol, **params):
"""处理 Ping,返回 Pong"""
pong_msg = {"action": "pong"}
await ws.send(json.dumps(pong_msg))
解决方案
- TCP Keep-Alive 设置:
可以考虑调整 TCP Keep-Alive 设置,以加快服务器检测到设备断开的速度,从而减少等待时间。这会影响整个设备的 TCP Keep Alive,尽量不进行 - 心跳机制:进一步完善 PingPong 心跳机制,确保定时检查连接是否有效。如果检测到设备失去连接,可以更快地清除 Redis 中的记录。
- 断开连接的逻辑加强:在断开连接的逻辑中增加更多的校验,确保只有当设备断开并且确实不再连接时才从 Redis 中移除其信息。
总结
通过对 WebSocket
断开连接的处理逻辑进行增强,增加了对 Redis 存储的校验机制,可以有效避免由于设备重新启动时,错误地删除 Redis 中的设备信息。此外,心跳机制的加入也进一步提升了连接的管理效率。