케이스 #16

KT하이텔

VRRPseverity: normalresolved

PAS-K3000 VRRP 그룹 다중화 설정 시 HA 불안정

고객사
KT하이텔 / 통신
장비
PAS-K 3500 (FW 4.5.1)
등록일시
2025. 05. 08. AM 12:22
종결일시
2025. 05. 10. AM 03:22

증상 및 본문

2024년 4월 20일 10시경, PAS-K3000 (v5.0.8) 이중화 환경에서 여러 개의 VRRP 그룹을 설정한 이후 HA 상태가 간헐적으로 'UNKNOWN'으로 전환되는 현상이 발생했습니다. 특정 VRRP 그룹의 마스터-스탠바이 역할이 불규칙하게 변경되었으며, 이로 인해 해당 그룹이 담당하는 서비스에서 짧은 순간 접속 끊김이 발생했습니다. CPU 사용률은 정상 범위였으나, 시스템 로그에 'VRRP group state flapping' 메시지가 반복적으로 기록되었습니다.

근본 원인

다수의 VRRP 그룹 설정으로 인해 VRRP Keepalive 패킷 처리량이 증가하여, 시스템 부하가 높거나 네트워크 환경이 불안정할 때 일부 VRRP 그룹의 상태 감지에 지연이 발생했습니다.

조치

VRRP advertise interval 값을 1초에서 2초로 늘려 Keepalive 패킷 전송 빈도를 낮춰 시스템 부하를 줄였습니다. 'config vrrp group [group_id] advertise-interval 2' 명령어를 사용했습니다. 또한, VRRP 그룹별 모니터링을 강화했습니다.

코멘트 (2)

  1. AI2025. 05. 08. AM 09:22
    **AI 분석** 첨부 파일에서 OOM 키워드 감지. 메모리 누수 의심. 참고 사례: #CASE-39 _AI 생성 — 검증 후 사용_
  2. 엔지니어2025. 05. 08. AM 09:22
    동일 펌웨어에서 유사 이슈가 다른 고객사에서도 발생 — 패턴 확인 필요.