지난 포스팅인 수집 단계에서는 데이터를 다른 위치로 이동하는 것이 주요 목적이었다면, 변환에서는 해당 데이터를 유용하게 만들어야 합니다. 이번 포스팅에서 데이터 변환이 무엇인지 그리고 이 단계에서 데이터 엔지니어가 고려해야 하는 사항에 대해 알아봅시다. 1. 데이터 변환 도구와 방법 변환은 데이터를 원래 형식에서 다운스트림 사용 사례에 유용한 다른 형식으로 변경하는 것을 의미합니다. 데이터는 적절히 변환되지 않으면 보고서, 분석, 기계 학습 등에 사용할 수 없습니다. 원시 데이터를 이해 관계자가 사용할 수 있는 데이터로 전환하는 데 사용하는 도구는 다음과 같습니다.쿼리쿼리는 데이터 엔지니어링, 데이터 과학 및 분석의 기본 요소입니다.쿼리를 통해 데이터를 검색하고 이를 기반으로 작업을 수행할 수 있습니다...
지난 포스팅에는 데이터 수명 주기, 데이터 수집 시 고려사항에 대해 알아보았습니다. 이번에는 데이터 수집과 빅데이터의 기본 개념에 대해 이해해보고 데이터 수집 시 어떤 AWS 서비스를 사용할 수 있는지 알아보겠습니다. 1. 데이터 수집에 대해데이터 수집 프로세스는 생산자에서 시작됩니다. 생산자는 데이터베이스, 모바일 디바이스, 애플리케이션 등 다양하게 있으며 생산자가 데이터를 생성하면 수집 도구가 데이터를 수집합니다. EC2에 호스팅되는 애플리케이션 부터 AWS 데이터베이스, AWS Lambda와 같은 컴퓨팅 서비스 등이 수집된 데이터의 소비자가 될 수 있습니다. 1.1 AWS 데이터 수집 예시다음과 같이 데이터 수집을 해야하는 상황이 있습니다.애플리케이션이 파일이 S3 데이터 레이크에 기록됩니다.데..
AWS DEA(Data Engineering Associate) 자격증 준비하면서 봤던 강의 내용을 포스팅하려고 합니다. AWS Skill Builder에서 제공해주는 DEA-C01 Standard Exam Prep Course 강의 내용을 기반으로 작성했으며 자격증 준비단계에서 개념잡기에 좋을만한 내용들을 포함했습니다. 1. 데이터 엔지니어링 수명 주기 본격적인 데이터 통합 및 변환에 대한 포스팅 이전에 기본으로 돌아가서 먼저 데이터 엔지니어링 수명 주기에 대해 이야기해 보겠습니다. 수명 주기에는 데이터 생성, 저장, 수집, 변형 및 제공 단계가 있습니다. 수집 전의 처음 두 단계를 살펴보겠습니다. 1.1 생성데이터가 발생하는 위치, 즉 소스 시스템 입니다. 예시로는 다음과 같습니다.사물 인터넷(IoT..
Sorted Set 1. 특징 unique string 데이터(member)를 score 정보로 정렬된 형태의 집합으로 저장할 때 씁니다. 같은 score 정보를 가진 member가 여러개 있다면, 문자열순(lexicograpically)으로 정렬합니다. Ranking: 높은 score 순으로 실시간 정렬을 가진 자료가 필요할 때 쓸 수 있습니다. Sliding-Window를 가진 Rate Limiter를 구현할 수 있습니다. 2. Commands ZADD 새로운 member를 score 값과 함께 추가한다. 이미 존재하는 member라면 score를 업데이트 한다. ZRANGE 주어진 Range에 해당하는 member들을 리턴한다. ZRANK 주어진 member의 rank를 리턴한다. Ranking은 ..
이전 글 Redis의 String형식에 이어서 이번에는 List와 Set형식에 대해 알아보고 실습해보겠습니다. Redis의 LIST 실습 1. Lists 특징 지정한 Key에 리스트를 저장할 수 있습니다. 왼쪽(Left)이 Head, 오른쪽(Right)이 Tail입니다. 리스트에 들어갈 수 있는 최대 갯수는 2^32 - 1 (4,294,967,295)개 입니다. Stack, Queue 등을 구현하는데 사용합니다. 2. Comands LPUSH 새 원소를 Head에 추가한다. RPUSH 새 원소를 Tail에 추가한다. LPOP Head의 원소를 지우고 리턴한다. RPOP Tail의 원소를 지우고 리턴한다. LRANGE 특정 길이, 개수 만큼 원소를 리턴한다. (ex. 리스트의 처음부터 마지막 까지의 원소를..
해당 글에서는 Redis의 자료 형식이 어떤것이 있는지 살펴보고 명령어를 cli환경을 통해서 실습 해보겠습니다. Redis의 Key Redis의 모든 자료구조는 Key-Value형식이며, 저장과 조회는 key를 기준으로 합니다. Key는 binary sequence로 binary-safe합니다. 즉, string이나 어떤 파일을 binary로 변환한 값이나 상관없이 key로 설정할 수 있습니다. (앞에서부터 byte단위로 비교 합니다.) key 설계와 관련해서 다음과 같은 것을 고려해야합니다. 너무 긴(큰) key값 피하기 (Avoid Long Key) key의 길이(크기)가 크다면, 메모리를 더 많이 차지할 뿐만 아니라, key 비교 연산 등에서도 비용이 많이 듭니다. key의 크기는 1K(1024by..