합격을 위한 DP-203 핵심 개념 | Azure Data Factory 집중 학습

작성자: azure | 작성일: 2026년 06월 22일 | 조회: 0 | 좋아요: 0

🗄️

ASSOCIATE LEVEL

Microsoft Azure Data Engineer Associate (DP-203)

데이터 분석 핵심 이론 강의

🎓 TODAY'S LECTURE

하이브리드 데이터 통합 및 오케스트레이션 (Hybrid Data Integration and Orchestration)

Azure Data Factory (ADF)와 Self-Hosted Integration Runtime (SHIR)을 활용한 온프레미스-클라우드 데이터 흐름 관리

오늘날 많은 기업은 온프레미스 시스템과 클라우드 환경에 데이터를 분산하여 운영하는 하이브리드 환경에 직면해 있습니다. 이러한 복잡한 환경에서 데이터를 효율적으로 통합하고 오케스트레이션하는 것은 시기적절한 비즈니스 통찰력을 얻고 데이터 일관성을 유지하는 데 필수적입니다. 본 강의에서는 Azure Data Factory (ADF)가 다양한 하이브리드 소스로부터 데이터를 안전하게 연결하고 처리하는 기능을 통해 이러한 도전 과제를 어떻게 해결하는지 심층적으로 다룰 것입니다. 확장 가능하고 안정적인 데이터 파이프라인을 구축하기 위해 이러한 패턴을 이해하는 것이 중요합니다.

💡 KEY CONCEPTS

1 Azure Data Factory (ADF)의 역할과 기능

Azure Data Factory (ADF)는 클라우드 기반의 완전 관리형 데이터 통합 서비스입니다. 다양한 온프레미스 및 클라우드 데이터 소스에서 데이터를 수집, 변환, 로드하는 ETL (Extract, Transform, Load) 및 ELT (Extract, Load, Transform) 워크플로우를 구축하고 오케스트레이션합니다. 시각적 인터페이스를 통해 복잡한 파이프라인을 설계하고, 스케줄링 및 모니터링 기능을 제공하여 데이터 흐름을 자동화합니다. 이를 통해 데이터 엔지니어는 인프라 관리가 아닌 데이터 이동 및 변환 논리에 집중할 수 있습니다.

2 Integration Runtime (IR)의 종류 및 역할

Integration Runtime (IR)은 Azure Data Factory의 핵심 컴퓨팅 인프라로, 데이터 이동, 활동 디스패치, SSIS 패키지 실행 등 다양한 데이터 통합 기능을 수행합니다. ADF는 크게 Azure, Self-Hosted, Azure-SSIS 세 가지 유형의 IR을 제공합니다. 각 IR은 특정 시나리오에 최적화되어 있으며, 데이터가 어디에 위치하든 안전하고 효율적인 데이터 통합을 가능하게 합니다. IR의 올바른 선택은 파이프라인 성능과 보안에 직접적인 영향을 미치므로 중요합니다.

3 Self-Hosted Integration Runtime (SHIR)을 통한 하이브리드 연결

Self-Hosted Integration Runtime (SHIR)은 온프레미스 네트워크 내에 직접 설치되는 에이전트입니다. 이를 통해 ADF는 방화벽 뒤에 있는 온프레미스 데이터 소스 (예: SQL Server, Oracle 데이터베이스, 파일 서버)에 안전하게 접근하고 데이터를 이동시킬 수 있습니다. SHIR은 인바운드 포트를 열 필요 없이 아웃바운드 연결만 사용하여 기업 네트워크 보안 정책을 준수하며, 데이터는 온프레미스에서 클라우드로 직접 전송되므로 중간 캐싱 없이 고성능 데이터 이동을 지원합니다. 하이브리드 환경에서 핵심적인 연결 브리지 역할을 합니다.

🛠️ REAL-WORLD SCENARIO

한 금융 기업은 온프레미스 SQL Server 데이터베이스에 저장된 고객 거래 내역과 내부 CRM 시스템 데이터를 Azure Synapse Analytics (Dedicated SQL Pool)로 통합하여 고급 분석 및 머신러닝 모델 학습에 활용하고자 합니다. 온프레미스 데이터는 민감하여 외부 접근이 엄격히 제한됩니다. 이 시나리오에서, 기업은 Self-Hosted Integration Runtime (SHIR)을 온프레미스 데이터센터 내부에 설치하고, Azure Data Factory (ADF)와 연결하여 온프레미스 SQL Server 및 CRM 시스템에 안전하게 접근합니다. ADF 파이프라인은 SHIR을 통해 온프레미스 데이터를 추출하고, ADF의 Data Flow 기능을 활용하여 데이터를 클렌징, 정규화 및 집계합니다 (예: 개인 식별 정보를 마스킹하거나 여러 테이블을 조인). 변환된 데이터는 Azure Data Lake Storage Gen2 (ADLS Gen2)에 랜딩된 후, PolyBase 또는 COPY 명령을 사용하여 Azure Synapse Analytics의 전용 SQL 풀로 효율적으로 로드됩니다. ADF의 스케줄링 기능을 통해 파이프라인은 매일 특정 시간에 자동 실행되며, 모니터링 대시보드를 통해 작업의 성공 여부와 성능이 실시간으로 확인됩니다. 모범 사례로는 SHIR을 물리적/네트워크 보안이 강화된 환경에 배치하고 최소 권한 원칙을 적용하는 것, 고가용성 및 확장성을 위해 2개 이상의 SHIR 노드를 구성하는 것, 그리고 SHIR과 데이터 소스 간의 네트워크를 최적화하여 데이터 전송 성능을 극대화하는 것이 포함됩니다.

🎯 EXAM TIPS

📌

Integration Runtime (IR) 유형별 사용 시나리오 비교: Azure IR (일반적인 클라우드-클라우드), Self-Hosted IR (온프레미스-클라우드), Azure-SSIS IR (SSIS 패키지 실행) 각각의 특징, 제약 사항, 적합한 사용 사례를 명확히 구분할 수 있어야 합니다.

📌

Self-Hosted Integration Runtime (SHIR)의 기능 및 구성: SHIR이 온프레미스 방화벽 내부에서 어떻게 작동하는지 (인바운드 포트 불필요, 아웃바운드 443 포트 사용), 고가용성 및 확장성을 위한 구성 방법 (여러 노드 등록), 그리고 데이터 이동의 보안 메커니즘을 이해하는 것이 중요합니다.

📌

ADF 데이터 플로우 (Data Flow)와 파이프라인 (Pipeline)의 역할: ADF 파이프라인은 데이터 이동 및 오케스트레이션의 전체 흐름을 정의하며, 데이터 플로우는 파이프라인 내에서 데이터 변환 논리(코드 없는 ETL)를 구현하는 데 사용됩니다. 이 둘의 관계와 시나리오별 활용법을 숙지해야 합니다.

🏷️ 관련 Azure 서비스

Azure Data FactorySelf-Hosted Integration RuntimeAzure Synapse AnalyticsAzure Data Lake Storage Gen2

📚 Azure 자격증 합격을 위한 데일리 이론 강의

매일 새로운 강의 노트가 업데이트됩니다 | 더 많은 자료 보기 →