[Spark] Spark SQL, DataFrame, Datasets (Structured Data)

1. Structured vs Unstructured Data

RDD
- 데이터의 구조를 모르기때문에 데이터를 다루는 것을 개발자에게 의존
- Map, flatMap, filter등을 통해 유저가 만든 function을 수행 -> 유저 숙련도에 따라 성능이 차이나게됨
Structured Data
- 데이터의 구조를 이미 알고있으므로 어떤 테스크를 수행할것인지 정의만 하면 됨
- 최적화 자동으로 수행됨 (Catalyst Optimize와 Tungsten Project)

Spark Core에 RDD가 있다면 Spark SQL엔 DataFrame, DataFram은 테이블 데이터셋이며 개념적으론 RDD에 스키마가 적용된것으로 보면 됨
RDD와 DataFrame 변환이 가능
MLLib나 Spark Streaming 같은 다른 Spark 모듈들과 사용하기 편하다.
SQL문을 사용해서 쿼리가 가능하다.

[Spark] 스파크 Window 로컬 환경 설치하기 (0)	2025.05.26
[Spark] 스파크 RDD란? (Resilient Distributed Dataset) - 2 (0)	2025.05.26
[Spark] 스파크 RDD란? (Resilient Distributed Dataset) - 1 (1)	2025.05.26
[Spark] 스파크의 특징과 기본 개념 - 2 (0)	2025.05.17
[Spark] 스파크의 특징과 기본 개념 - 1 (0)	2025.05.17