AWS DEA(Data Engineering Associate) 자격증 준비하면서 봤던 강의 내용을 포스팅하려고 합니다. AWS Skill Builder에서 제공해주는 DEA-C01 Standard Exam Prep Course 강의 내용을 기반으로 작성했으며 자격증 준비단계에서 개념잡기에 좋을만한 내용들을 포함했습니다.
1. 데이터 엔지니어링 수명 주기
본격적인 데이터 통합 및 변환에 대한 포스팅 이전에 기본으로 돌아가서 먼저 데이터 엔지니어링 수명 주기에 대해 이야기해 보겠습니다. 수명 주기에는 데이터 생성, 저장, 수집, 변형 및 제공 단계가 있습니다. 수집 전의 처음 두 단계를 살펴보겠습니다.
1.1 생성
데이터가 발생하는 위치, 즉 소스 시스템 입니다. 예시로는 다음과 같습니다.
- 사물 인터넷(IoT) 디바이스
- 트랜잭션 데이터베이스
- 애플리케이션 메시지 대기열
데이터 엔지니어는 다음과 같은 데이터의 유형을 이해해야 합니다.
- 소스 시스템의 작동 방식
- 데이터 생성 방식
- 데이터의 빈도 및 속도
- 생성되는 데이터의 유형
이 단계에서 다음과 같은 질문을 고려해봐야 합니다.
- 데이터 특성은 무엇입니까?
- 소스 시스템에서 데이터가 유지되는 방식은 무엇입니까?
- 중복 데이터가 존재합니까?
- 해당 소스 데이터의 스키마는 무엇이고 스키마는 변경됩니까?
1.2 저장
데이터 엔지니어링 수명 주기의 다음 단계는 저장입니다. 소스 데이터를 저장할 적절한 솔루션을 선택할 수 있어야 합니다. 해당 내용은 저장에 관련한 포스팅에서 다룰 것 입니다.
2. 데이터 수집 시 고려사항
데이터 엔지니어링 수명 주기의 세 번째 단계이자 이 포스팅 설명의 초점이 될 데이터 수집입니다.
2.1 수집 전 고려사항
- 데이터 소스, 소스 시스템의 특성
- 해당 데이터가 소스 시스템에 저장되는 방식
- 수집된 데이터를 저장하기 위한 계획 및 설계
위의 단계를 거친 후 데이터를 수집해야 합니다.
여기서 고려해야 할 사항에 대한 질문은 다음과 같습니다.
- 수집되는 데이터의 사용 사례는 무엇입니까?
- 이 데이터는 수집된 후 어디로 이동합니까?
- 데이터가 수집되는 빈도 및 볼륨은 어떻게 됩니까?
- 데이터의 형식은 무엇입니까?
이 단계에서 고려해야 할 두 가지 주요 데이터 통합 개념이 있습니다.
- betch 또는 streaming
- Push 또는 Pull
DEA 자격증 시험에서는 배치, 스트리밍, 푸시 및 풀 각각의 개념 및 차이점을 이해해야 합니다.
2.2 데이터 수집 파이프라인 고려 사항
또한 데이터 수집 파이프라인의 재처리를 고려해야 합니다. 재처리는 파이프라인 로직에서 실패, 업데이트 또는 변경이 발생할 경우 데이터를 재처리하는 데 도움이 됩니다. 재처리를 구현하기 위해 이벤트 기반 방식으로 데이터 수집 파이프라인 설계를 권장합니다. 이러한 방식을 사용할 수 있는 AWS 서비스는 다음과 같습니다.
- Amazon S3
- Amazon Kinesis
- Amazon EventBridge
다양한 시뮬레이션 및 재처리 시나리오를 통해 데이터 수집 파이프라인의 재처리를 테스트하여 멱등성을 검증하고 데이터 손실, 중복 또는 무결설 문제 없이 일관되게 데이터를 재처리하는 것이 모범적인 사례라고 할 수 있습니다.
이러한 재처리 검증은 다음과 같은곳에 이점이 있습니다.
- 파이프라인이 데이터 중복 또는 불일치 없이 동일한 데이터를 여러 번 처리하는데 도움이 됩니다.
- 파이프라인 내에 데이터 처리의 진행 상황 및 상태를 추적해 마지막 성공 처리된 데이터 포인트를 결정하는 체크포인트 메커니즘을 구성합니다. 그러면 오류 또는 중단이 발생할 경우 파이프라인이 해당 포인트부터 처리를 재개할 수 있습니다.
2.3 데이터 버전 관리
데이터 수집 파이프라인 내에 데이터 버전 관리도 추가합니다. 원시 또는 중간 데이터를 Amazon S3와 같은 확장 가능한 내구적 스토리지 서비스에 저장해야 합니다. 그러면 규정 준수 요구 사항, 데이터 거버넌스 정책 및 다시 재생을 위해 일정 기간 동안 데이터를 보존할 수 있습니다.
2.4 로깅 및 모니터링
데이터 파이프라인 내에 로깅 및 모니터링을 추가하여 다음과 같은 작업을 진행합니다.
- 진행 상황 추적
- 실패 식별
- 파이프라인 동작을 분석하기 위한 로그, 오류 지표를 캡처
2.5 CI / CD
마지막으로 AWS CloudFormation 또는 AWS Cloud Development Kit (AWS CDK)같은 코드형 인프라 도구를 사용하여 데이터 수집 파이프라인의 배포 및 구성을 자동화합니다.
'Data Engineering > 자격증' 카테고리의 다른 글
[AWS DEA] 프로그래밍 개념을 적용한 데이터 처리 자동화 (0) | 2025.05.21 |
---|---|
[AWS DEA] 데이터 파이프라인 오케스트레이션 - 1 (0) | 2025.05.16 |
[AWS DEA] 데이터 변환 및 처리 - 2 (0) | 2025.05.15 |
[AWS DEA] 데이터 변환 및 처리 - 1 (0) | 2025.05.14 |
[AWS DEA] 데이터 수집 - 2 (0) | 2025.05.13 |