Networkseverity: normalresolved
PAS-K1616 L4 스위치 서버 풀 멤버 장애 감지 실패
증상 및 본문
2024년 6월 10일 14시경, PAS-K1616 L4 스위치에 등록된 서버 풀의 특정 서버(192.168.2.20)가 실제로는 서비스 불가 상태였음에도 불구하고, L4 스위치에서는 계속 정상으로 감지하여 트래픽을 전달하는 문제가 발생했습니다. 이로 인해 해당 서버로 접속한 사용자들이 서비스 장애를 겪었습니다. 영향 범위는 해당 서버로 트래픽이 전달된 사용자이며, 시도한 조치로는 서버 자체의 서비스 프로세스 확인 및 L4 헬스 체크 설정 점검 등이 있었습니다. L4 스위치의 헬스 체크 민감도 조절이 필요해 보였습니다.
근본 원인
L4 헬스 체크(예: TCP Port Check) 설정의 임계값이 너무 높거나 체크 주기가 길어 서버의 실제 장애를 즉시 감지하지 못했습니다.
조치
L4 헬스 체크의 체크 주기를 단축하고, 타임아웃 값을 조정하여 서버의 장애를 보다 빠르게 감지하도록 설정했습니다. (config)#health-check type tcp port 80 interval 3 timeout 2 retry 2
코멘트 (0)
코멘트가 없습니다.