오늘의 Azure 강의 (06/29) — SC-200 Azure Site Recovery
작성자: azure | 작성일: 2026년 06월 29일 | 조회: 0 | 좋아요: 0
Microsoft Security Operations Analyst Associate (SC-200)
고가용성 및 재해복구 핵심 이론 강의
Cross-Region Business Continuity with Azure Site Recovery and Traffic Manager
재해 발생 시 애플리케이션 가용성을 보장하는 다중 지역 아키텍처 구현
현대 기업은 지역적 장애나 대규모 재해 발생 시에도 서비스 중단을 용납하지 않습니다. 중요한 애플리케이션의 가동 중단 시간과 데이터 손실을 최소화하려면 지리적 지역을 넘나드는 강력한 비즈니스 연속성 및 재해 복구 (BCDR) 전략이 필수적입니다. 본 강의에서는 Azure Site Recovery (ASR)와 Azure Traffic Manager를 결합하여 자동화된 재해 복구와 효율적인 트래픽 관리를 통해 고가용성 아키텍처를 구축하는 핵심 방법을 다룹니다.
1 Azure Site Recovery (ASR)
ASR은 온프레미스 가상 머신 (VMs), 물리 서버 또는 Azure VM을 다른 Azure 지역으로 복제하여 재해 복구 솔루션을 제공하는 서비스입니다. 이는 애플리케이션의 복구 시점 목표 (RPO)와 복구 시간 목표 (RTO)를 충족하도록 데이터를 지속적으로 복제하고, 재해 발생 시 복구 계획에 따라 워크로드를 자동으로 페일오버할 수 있도록 오케스트레이션합니다.
2 Azure Traffic Manager
Traffic Manager는 DNS 기반의 트래픽 로드 밸런싱 서비스로, 전 세계적으로 분산된 애플리케이션 엔드포인트로 사용자 트래픽을 효율적으로 분산시킵니다. 다양한 라우팅 방법(우선순위, 성능, 지리적, 가중치 등)을 사용하여 애플리케이션의 가용성을 높이고 성능을 최적화하며, 재해 발생 시 자동으로 정상 엔드포인트로 트래픽을 리디렉션하여 서비스 연속성을 보장합니다.
3 복구 시점 목표 (RPO) 및 복구 시간 목표 (RTO)
RPO는 재해 발생 시 허용 가능한 최대 데이터 손실량을 의미하며, ASR의 복제 빈도와 관련이 깊습니다. RTO는 재해 발생 후 서비스를 정상 상태로 복구하는 데 필요한 최대 허용 시간을 의미하며, ASR의 페일오버 오케스트레이션과 Traffic Manager의 트래픽 리디렉션 속도에 영향을 받습니다. 이 두 지표는 BCDR 전략을 설계할 때 핵심적인 성능 목표입니다.
한 글로벌 전자상거래 기업은 Azure에 호스팅된 핵심 애플리케이션(웹 서버, API 서비스, 데이터베이스)에 대해 99.99% 이상의 고가용성과 지역 재해 발생 시 4시간 이내의 RTO, 15분 이내의 RPO를 목표로 합니다.
**아키텍처 구성 및 활용:**
1. **주 지역 (Primary Region) 설정**: 애플리케이션은 한국 중부 (Korea Central) 지역에 배포되며, 가상 머신 (Virtual Machines)은 가용성 세트 (Availability Sets) 내에 구성되어 데이터센터 내의 장애로부터 보호됩니다. 데이터베이스는 Azure SQL Database의 지역 중복 (Geo-Redundant) 옵션 또는 Azure VM 기반 데이터베이스의 ASR 복제가 사용됩니다.
2. **보조 지역 (Secondary Region) 설정**: 일본 동부 (Japan East) 지역을 재해 복구 지역으로 지정합니다. ASR을 사용하여 한국 중부의 주요 애플리케이션 VM을 일본 동부 지역으로 지속적으로 복제합니다. ASR은 복구 계획 (Recovery Plan)을 통해 웹/API 서버, DB 서버 등 애플리케이션 계층별로 복구 순서를 정의하고 스크립트를 자동화하여 일관된 복구를 보장합니다.
3. **트래픽 관리**: Azure Traffic Manager 프로필을 생성하고, 주 지역의 애플리케이션 엔드포인트와 보조 지역의 복구 애플리케이션 엔드포인트를 구성합니다. 라우팅 방법은 '우선순위 (Priority)' 방식을 사용하며, 주 지역 엔드포인트에 가장 높은 우선순위를 부여합니다. Traffic Manager는 주기적으로 각 엔드포인트의 상태를 모니터링합니다.
4. **재해 복구 시나리오**: 한국 중부 지역에 광범위한 장애가 발생하여 주 지역의 애플리케이션이 접근 불가능해지면, Traffic Manager는 자동으로 이를 감지하고 주 지역 엔드포인트를 비활성으로 표시합니다. 이후 트래픽은 자동으로 우선순위가 높은 다음 정상 엔드포인트인 일본 동부 지역으로 리디렉션됩니다. ASR을 통해 일본 동부 지역에서 복구된 인스턴스들이 활성화되어 서비스를 계속 제공합니다.
**모범 사례 (Best Practice):**
* **정기적인 DR 드릴 (DR Drills)**: ASR의 테스트 페일오버 (Test Failover) 기능을 사용하여 실제 프로덕션 환경에 영향을 주지 않고 DR 계획의 유효성을 정기적으로 검증합니다.
* **복구 계획 자동화 (Automated Recovery Plans)**: ASR 복구 계획에 시작 순서, 스크립트 실행, 수동 작업 등을 포함하여 복구 프로세스를 최대한 자동화하여 RTO를 단축합니다.
* **모니터링 및 경고 (Monitoring and Alerting)**: Azure Monitor를 사용하여 ASR 복제 상태, Traffic Manager 엔드포인트 상태, 애플리케이션 성능 등을 지속적으로 모니터링하고, 잠재적인 문제 발생 시 경고를 설정합니다.
ASR과 Traffic Manager의 역할 및 연계 이해: ASR은 재해 시 워크로드 복구 및 오케스트레이션, Traffic Manager는 사용자 트래픽 리디렉션을 담당하며, 이 둘의 상호 작용이 중요합니다.
RPO와 RTO의 정의 및 영향 요인: ASR의 복제 설정 (예: 5분 RPO)과 Traffic Manager의 DNS TTL (Time To Live)이 RTO에 미치는 영향 등 개념을 정확히 이해하고 비교할 수 있어야 합니다.
다양한 Traffic Manager 라우팅 방법 비교: 우선순위 (Priority), 성능 (Performance), 지리적 (Geographic), 가중치 (Weighted), 서브넷 (Subnet), 다중 값 (Multivalue) 등 각 라우팅 방법의 특징과 사용 시나리오를 숙지해야 합니다.
🏷️ 관련 Azure 서비스
📚 Azure 자격증 합격을 위한 데일리 이론 강의
매일 새로운 강의 노트가 업데이트됩니다 | 더 많은 자료 보기 →