케이스 #3

동원전자

VRRPseverity: criticalresolved

PAS-K3000 VRRP Split-Brain 발생으로 인한 IP 충돌 및 서비스 장애

고객사
동원전자 / 제조
장비
PAS-K 1500 (FW 4.4.0)
등록일시
2025. 12. 12. PM 04:22
종결일시
2025. 12. 15. PM 01:22

증상 및 본문

2023년 12월 5일 오전 10시경, PAS-K3000 (v5.0.5) 이중화 환경에서 VRRP Split-Brain 현상이 발생하여 가상 IP 충돌이 감지되었습니다. 양쪽 장비가 모두 마스터 상태로 동작하며 동일한 가상 IP를 사용하려 시도하여, 서비스 접속이 완전히 중단되는 심각한 장애가 발생했습니다. 약 20분간 서비스가 중단되었으며, 관리자가 수동으로 한쪽 장비의 VRRP를 비활성화한 후에야 서비스가 복구되었습니다. 네트워크 케이블 이상 여부를 확인했으나 특이점은 없었습니다.

근본 원인

VRRP Keepalive 네트워크의 물리적 단절로 인해 양쪽 장비가 서로의 상태를 인지하지 못하고 동시에 마스터로 전환되는 Split-Brain 현상이 발생했습니다.

조치

VRRP Keepalive용 전용 인터페이스의 케이블 상태를 점검하고 재연결했습니다. 또한, VRRP Preempt 모드를 비활성화하여 Split-Brain 발생 시 비정상적인 마스터 전환을 방지하도록 설정했습니다. 'no config vrrp group 1 preempt' 명령을 사용했습니다.

코멘트 (2)

  1. 파트너2025. 12. 13. AM 08:22
    현장 도착, 장비 전원 상태 정상 확인. 콘솔 접속 가능.
  2. 엔지니어2025. 12. 13. AM 08:22
    임시 조치로 `vrrp preempt delay 0` 적용 완료. 안정성 모니터링 중.

연결된 발행물 (1) — Notice/FAQ/Case Report/지식 DB

  • 장애 Notice#2pending_review2025. 12. 15. PM 03:22
    장애 Notice — PAS-K3000 VRRP Split-Brain으로 인한 서비스 중단
    본문 펼치기
    # 장애 Notice — PAS-K3000 VRRP Split-Brain으로 인한 서비스 중단 ## 개요 2023년 12월 5일 오전 10시경, PAS-K3000 (v5.0.5) 이중화 환경에서 VRRP Split-Brain 현상이 발생하여 가상 IP 충돌 및 서비스 접속 중단 장애가 발생했습니다. 약 20분간 서비스가 중단되었으며, 수동 조치 후 복구되었습니다. ## 영향 범위 - 영향 받은 시스템/서비스: PAS-K3000 이중화 환경의 가상 IP를 사용하는 모든 서비스 - 영향 시간대: 2023년 12월 5일 10:00 ~ 10:20 (약 20분) - 영향 받은 고객사 수: 1개 (해당 장비 이용 고객사) ## 근본 원인 VRRP Keepalive 네트워크의 물리적 단절로 인해 양쪽 PAS-K3000 장비가 서로의 상태를 인지하지 못하고 동시에 마스터로 전환되는 Split-Brain 현상이 발생했습니다. ## 조치 내역 1. VRRP Keepalive용 전용 인터페이스의 케이블 상태를 점검하고 재연결하여 물리적 단절을 해소했습니다. 2. VRRP Preempt 모드를 비활성화하여 Split-Brain 발생 시 비정상적인 마스터 전환을 방지하도록 설정했습니다. - `no config vrrp group 1 preempt` (영구 조치) ## 재발 방지책 - VRRP Keepalive 전용 인터페이스의 물리적 연결 상태를 주기적으로 점검합니다. - VRRP Keepalive 네트워크 경로의 이중화를 검토하여 단일 장애 지점을 제거합니다. - VRRP Preempt 모드를 비활성화하여 Split-Brain 발생 시 불필요한 마스터 전환을 방지합니다. - VRRP 상태 및 가상 IP 충돌 여부를 모니터링하는 시스템을 강화합니다. ## 관련 정보 - 참고 케이스: #CASE-3 - 관련 KB: (정보 없음) - 담당: TAC [엔지니어] --- *본 Notice는 AI 초안입니다. 게시 전 담당 엔지니어와 PM의 검토·승인이 필요합니다.*

RMA 요청 (1)

  • RMA #2수리shipping2025. 12. 13. PM 01:22
    콘솔 포트 손상 — 원격 복구 불가, 현장 수리 요청
    SN: PSK338968