[DOP-C02] AWS 오늘의 퀴즈 (단일 정답)
작성자: aws | 작성일: 2026년 06월 14일 | 조회: 0 | 좋아요: 0
AWS DOP-C02 | Professional
🚀 DevOps Engineer – Professional
Q. 한 대형 법률 사무소에서 연간 수백만 건에 달하는 방대한 양의 법률 문서(PDF, 스캔 이미지 등)를 자동으로 처리해야 합니다. 이 문서를 통해 텍스트를 추출하고, 특정 법률 조항 및 개인 식별 정보(PII: Personally Identifiable Information)를 식별한 후, 분석을 위해 구조화된 데이터 형태로 저장하고자 합니다. 이 솔루션은 고도로 확장 가능하고(highly scalable), 정확하며(accurate), 비용 효율적(cost-efficient)이어야 합니다. 가장 적절한 AWS 솔루션은 무엇입니까?
A. Amazon S3(S3)에 문서를 업로드하고, AWS Lambda(람다)를 사용하여 Amazon Textract(텍스트랙트)의 비동기 API를 호출하여 텍스트 및 테이블을 추출합니다. 추출된 텍스트는 Amazon Comprehend(컴프리헨드)의 Custom Entity Recognition (사용자 지정 엔터티 인식) 및 PII Detection(개인 식별 정보 탐지) 기능을 활용하여 법률 조항 및 PII를 식별한 후, Amazon S3에 구조화된 형태로 저장합니다.
B. 모든 문서를 Amazon S3(S3)에 저장한 후, 오픈 소스 OCR 라이브러리를 AWS EC2(EC2) 인스턴스에서 실행하여 텍스트를 추출하고, Python 스크립트로 주요 법률 조항 및 PII를 수동으로 식별합니다.
C. Amazon SageMaker(세이지메이커)에서 대규모 기계 학습 모델을 구축하여 문서에서 직접 텍스트를 추출하고 법률 조항 및 PII를 식별합니다. 모델 학습 및 추론을 위해 SageMaker Endpoint(세이지메이커 엔드포인트)를 배포합니다.
D. Amazon S3(S3)에 문서를 저장하고, Amazon Rekognition(리코그니션)으로 문서 내 텍스트를 인식한 후, Amazon Comprehend(컴프리헨드)의 기본 API를 사용하여 엔터티 및 PII를 탐지합니다.
🎯 정답: A
✅ A. Amazon S3(S3)에 문서를 업로드하고, AWS Lambda(람다)를 사용하여 Amazon Textract(텍스트랙트)의 비동기 API를 호출하여 텍스트 및 테이블을 추출합니다. 추출된 텍스트는 Amazon Comprehend(컴프리헨드)의 Custom Entity Recognition (사용자 지정 엔터티 인식) 및 PII Detection(개인 식별 정보 탐지) 기능을 활용하여 법률 조항 및 PII를 식별한 후, Amazon S3에 구조화된 형태로 저장합니다.
B. 모든 문서를 Amazon S3(S3)에 저장한 후, 오픈 소스 OCR 라이브러리를 AWS EC2(EC2) 인스턴스에서 실행하여 텍스트를 추출하고, Python 스크립트로 주요 법률 조항 및 PII를 수동으로 식별합니다.
C. Amazon SageMaker(세이지메이커)에서 대규모 기계 학습 모델을 구축하여 문서에서 직접 텍스트를 추출하고 법률 조항 및 PII를 식별합니다. 모델 학습 및 추론을 위해 SageMaker Endpoint(세이지메이커 엔드포인트)를 배포합니다.
D. Amazon S3(S3)에 문서를 저장하고, Amazon Rekognition(리코그니션)으로 문서 내 텍스트를 인식한 후, Amazon Comprehend(컴프리헨드)의 기본 API를 사용하여 엔터티 및 PII를 탐지합니다.
💡 해설:
옵션 A는 가장 포괄적이고 효율적인 솔루션입니다. Amazon Textract의 비동기 API는 대규모 문서 처리에 적합하며, 테이블 및 양식 데이터 추출에 특화되어 있습니다. Amazon Comprehend의 Custom Entity Recognition은 특정 법률 조항과 같은 도메인 특화된 엔터티를 정확하게 식별하는 데 필수적이며, PII Detection은 개인 정보 보호 요구 사항을 충족합니다. Lambda는 이 모든 과정을 오케스트레이션하여 서버리스(serverless), 확장 가능하고 비용 효율적인 워크플로우를 제공합니다.
옵션 B는 수동 식별로 인해 확장성 및 정확도 면에서 비효율적이며, EC2에서 오픈 소스 OCR을 관리하는 것은 운영 오버헤드가 큽니다.
옵션 C는 SageMaker가 강력하지만, Textract 및 Comprehend가 제공하는 특정 기능(문서 추출, PII, 사용자 지정 엔터티)을 위해 처음부터 모델을 구축하는 것은 과도한 복잡성과 비용을 초래합니다.
옵션 D는 Amazon Rekognition이 일반적인 텍스트 감지에는 사용될 수 있으나, Textract만큼 문서 구조(테이블, 양식 등) 추출에 강하지 않습니다. 또한 Amazon Comprehend의 기본 API만으로는 법률 도메인에 특화된 사용자 지정 조항을 정확히 식별하기 어렵습니다.
옵션 A는 가장 포괄적이고 효율적인 솔루션입니다. Amazon Textract의 비동기 API는 대규모 문서 처리에 적합하며, 테이블 및 양식 데이터 추출에 특화되어 있습니다. Amazon Comprehend의 Custom Entity Recognition은 특정 법률 조항과 같은 도메인 특화된 엔터티를 정확하게 식별하는 데 필수적이며, PII Detection은 개인 정보 보호 요구 사항을 충족합니다. Lambda는 이 모든 과정을 오케스트레이션하여 서버리스(serverless), 확장 가능하고 비용 효율적인 워크플로우를 제공합니다.
옵션 B는 수동 식별로 인해 확장성 및 정확도 면에서 비효율적이며, EC2에서 오픈 소스 OCR을 관리하는 것은 운영 오버헤드가 큽니다.
옵션 C는 SageMaker가 강력하지만, Textract 및 Comprehend가 제공하는 특정 기능(문서 추출, PII, 사용자 지정 엔터티)을 위해 처음부터 모델을 구축하는 것은 과도한 복잡성과 비용을 초래합니다.
옵션 D는 Amazon Rekognition이 일반적인 텍스트 감지에는 사용될 수 있으나, Textract만큼 문서 구조(테이블, 양식 등) 추출에 강하지 않습니다. 또한 Amazon Comprehend의 기본 API만으로는 법률 도메인에 특화된 사용자 지정 조항을 정확히 식별하기 어렵습니다.
🚀 Tip: DOP-C02 시험에서는 특정 요구사항에 대한 서비스의 '가장 적절한' 활용법을 묻는 문제가 많습니다. AI/ML 서비스에서는 각 서비스의 핵심 기능과 차이점(예: Rekognition vs Textract, Comprehend 기본 vs 사용자 지정)을 정확히 이해하고, 확장성, 비용 효율성, 관리 용이성 측면에서 최적의 조합을 선택하는 능력이 중요합니다.
Amazon TextractAmazon ComprehendAWS LambdaAmazon S3
🛡️ Deuktem AWS Quiz Bot | 커뮤니티 이동