[DOP-C02] AWS 오늘의 퀴즈 (단일 정답)

작성자: aws | 작성일: 2026년 06월 14일 | 조회: 0 | 좋아요: 0

AWS DOP-C02 | Professional
🚀 DevOps Engineer – Professional
Q. 한 대형 법률 사무소에서 연간 수백만 건에 달하는 방대한 양의 법률 문서(PDF, 스캔 이미지 등)를 자동으로 처리해야 합니다. 이 문서를 통해 텍스트를 추출하고, 특정 법률 조항 및 개인 식별 정보(PII: Personally Identifiable Information)를 식별한 후, 분석을 위해 구조화된 데이터 형태로 저장하고자 합니다. 이 솔루션은 고도로 확장 가능하고(highly scalable), 정확하며(accurate), 비용 효율적(cost-efficient)이어야 합니다. 가장 적절한 AWS 솔루션은 무엇입니까?
A. Amazon S3(S3)에 문서를 업로드하고, AWS Lambda(람다)를 사용하여 Amazon Textract(텍스트랙트)의 비동기 API를 호출하여 텍스트 및 테이블을 추출합니다. 추출된 텍스트는 Amazon Comprehend(컴프리헨드)의 Custom Entity Recognition (사용자 지정 엔터티 인식) 및 PII Detection(개인 식별 정보 탐지) 기능을 활용하여 법률 조항 및 PII를 식별한 후, Amazon S3에 구조화된 형태로 저장합니다.
B. 모든 문서를 Amazon S3(S3)에 저장한 후, 오픈 소스 OCR 라이브러리를 AWS EC2(EC2) 인스턴스에서 실행하여 텍스트를 추출하고, Python 스크립트로 주요 법률 조항 및 PII를 수동으로 식별합니다.
C. Amazon SageMaker(세이지메이커)에서 대규모 기계 학습 모델을 구축하여 문서에서 직접 텍스트를 추출하고 법률 조항 및 PII를 식별합니다. 모델 학습 및 추론을 위해 SageMaker Endpoint(세이지메이커 엔드포인트)를 배포합니다.
D. Amazon S3(S3)에 문서를 저장하고, Amazon Rekognition(리코그니션)으로 문서 내 텍스트를 인식한 후, Amazon Comprehend(컴프리헨드)의 기본 API를 사용하여 엔터티 및 PII를 탐지합니다.
🎯 정답: A
✅ A. Amazon S3(S3)에 문서를 업로드하고, AWS Lambda(람다)를 사용하여 Amazon Textract(텍스트랙트)의 비동기 API를 호출하여 텍스트 및 테이블을 추출합니다. 추출된 텍스트는 Amazon Comprehend(컴프리헨드)의 Custom Entity Recognition (사용자 지정 엔터티 인식) 및 PII Detection(개인 식별 정보 탐지) 기능을 활용하여 법률 조항 및 PII를 식별한 후, Amazon S3에 구조화된 형태로 저장합니다.
B. 모든 문서를 Amazon S3(S3)에 저장한 후, 오픈 소스 OCR 라이브러리를 AWS EC2(EC2) 인스턴스에서 실행하여 텍스트를 추출하고, Python 스크립트로 주요 법률 조항 및 PII를 수동으로 식별합니다.
C. Amazon SageMaker(세이지메이커)에서 대규모 기계 학습 모델을 구축하여 문서에서 직접 텍스트를 추출하고 법률 조항 및 PII를 식별합니다. 모델 학습 및 추론을 위해 SageMaker Endpoint(세이지메이커 엔드포인트)를 배포합니다.
D. Amazon S3(S3)에 문서를 저장하고, Amazon Rekognition(리코그니션)으로 문서 내 텍스트를 인식한 후, Amazon Comprehend(컴프리헨드)의 기본 API를 사용하여 엔터티 및 PII를 탐지합니다.
💡 해설:
옵션 A는 가장 포괄적이고 효율적인 솔루션입니다. Amazon Textract의 비동기 API는 대규모 문서 처리에 적합하며, 테이블 및 양식 데이터 추출에 특화되어 있습니다. Amazon Comprehend의 Custom Entity Recognition은 특정 법률 조항과 같은 도메인 특화된 엔터티를 정확하게 식별하는 데 필수적이며, PII Detection은 개인 정보 보호 요구 사항을 충족합니다. Lambda는 이 모든 과정을 오케스트레이션하여 서버리스(serverless), 확장 가능하고 비용 효율적인 워크플로우를 제공합니다.

옵션 B는 수동 식별로 인해 확장성 및 정확도 면에서 비효율적이며, EC2에서 오픈 소스 OCR을 관리하는 것은 운영 오버헤드가 큽니다.
옵션 C는 SageMaker가 강력하지만, Textract 및 Comprehend가 제공하는 특정 기능(문서 추출, PII, 사용자 지정 엔터티)을 위해 처음부터 모델을 구축하는 것은 과도한 복잡성과 비용을 초래합니다.
옵션 D는 Amazon Rekognition이 일반적인 텍스트 감지에는 사용될 수 있으나, Textract만큼 문서 구조(테이블, 양식 등) 추출에 강하지 않습니다. 또한 Amazon Comprehend의 기본 API만으로는 법률 도메인에 특화된 사용자 지정 조항을 정확히 식별하기 어렵습니다.
🚀 Tip: DOP-C02 시험에서는 특정 요구사항에 대한 서비스의 '가장 적절한' 활용법을 묻는 문제가 많습니다. AI/ML 서비스에서는 각 서비스의 핵심 기능과 차이점(예: Rekognition vs Textract, Comprehend 기본 vs 사용자 지정)을 정확히 이해하고, 확장성, 비용 효율성, 관리 용이성 측면에서 최적의 조합을 선택하는 능력이 중요합니다.
Amazon TextractAmazon ComprehendAWS LambdaAmazon S3
🛡️ Deuktem AWS Quiz Bot | 커뮤니티 이동