목록STUDY/Spark (3)
TJ_Log
1. Structured vs Unstructured Data Unstructured (free form) : 로그 파일, 이미지 Semi Structured (행과 열 or key와 value) : CSV, JSON, XML Structured (행과 열 + 데이터 타입(스키마)) : 데이터베이스 2. Structured Data vs RDD RDD 데이터의 구조를 모르기때문에 데이터를 다루는 것을 개발자에게 의존 Map, flatMap, filter등을 통해 유저가 만든 function을 수행 -> 유저 숙련도에 따라 성능이 차이나게됨 Structured Data 데이터의 구조를 이미 알고있으므로 어떤 테스크를 수행할것인지 정의만 하면 됨 최적화 자동으로 수행됨 (Catalyst Optimize와 T..

RDD - 탄력적인 분산 데이터셋이란? 스파크의 데이터 구조는 크게 3종류가 있습니다. - RDD (Resilient Distributed Dataset) - Dataframe - Dataset RDD는 그 중 가장 처음으로 도입된 데이터 구조로 Spark 1.0부터 도입된 가장 기초적인 데이터 구조입니다. (현재 Spark 3.0) 이름을 풀어보면 이렇게 해석이 가능하겠습니다. - Resilient(탄력적인, 회복력 있는, 변하지 않는) : 메모리 내부에서 데이터가 손실 시 유실된 파티션을 재연산해 복구할 수 있음 - Distributed(분산된) : 스파크 클러스터를 통하여, 메모리에 분산되어 저장됨 - Data : 파일, 정보 등 RDD 특징 5가지 1. 데이터 추상화 데이터는 클러스터에 흩어져있지..

1. 스파크란 아파치 스파크(apache spark)는 2011년 버클리 대학의 AMPlam에서 개발되어 현재는 아파치 재단의 오픈소스로 관리되고 있는 인메모리 기반의 대용량 데이터 고속 처리 엔진으로 범용 분산 클러스터 컴퓨팅 프레임워크 입니다. 2. 특징 Speed : 인메모리(In-Memory) 기반의 빠른 처리 Ease of Use : 다양한 언어 지원(Java, Scala, Python, R, SQL)을 통한 사용의 편이성 Generality : SQL, Streaming, 머신러닝, 그래프 연산 등 다양한 컴포턴트 제공 Run Everywhere : YARN, Mesos, Kubernetes등 다양한 클러스터에서 동작 가능 HDFS, Casandra, HBase 등 다양한 파일 포맷 지원 해당..