[AWS DEA] 프로그래밍 개념을 적용한 데이터 처리 자동화
데이터 엔지니어링은 단순한 데이터 이동 이상의 일을 요구합니다. 원시 데이터를 수집하고, 이를 유용한 정보로 가공하며, 이 모든 과정을 자동화된 파이프라인으로 구축해야 합니다. 이번 글에서는 AWS를 기반으로 데이터 파이프라인 구성하는 방법, SQL 및 프로그래밍 개념을 활용해 데이터를 변환하며, 성능을 최적화하고 인프라를 자동화하는 방법을 소개합니다. 1. 데이터 파이프라인과 ETL 프로세스 이해 이전 포스팅에서는 데이터 소스의 이해부터 수집, 변환, 저장, 그리고 오케스트레이션에 이르는 ETL (Extract, Transform, Load) 과정을 살펴보았습니다. AWS에서는 이를 운영화 및 자동화하기 위한 다양한 도구를 제공합니다.AWS Glue: 서버리스 ETL 서비스로, Spark 기반 작업..