'Data Engineering/Spark' 카테고리의 글 목록

[Spark] 스파크 Window 로컬 환경 설치하기

1. Spark 설치 전 참고사항Spark학습을 목적으로 한다면 로컬환경으로 구성하는 것이 좋습니다. 이유는 다음과 같습니다.로컬 설치 이유비용 없음: 로컬 머신만 있으면 별도의 클라우드 비용 없이 실습 가능구성 이해에 도움: Spark를 직접 설치하고 설정해보는 과정에서 아키텍처 이해에 큰 도움간단한 테스트에 적합: 소규모 데이터(수MB~수백MB) 기준으로 대부분의 Spark API를 충분히 학습 가능오프라인 환경에서도 실습 가능구성 방법Spark Standalone 모드로 설치Jupyter + PySpark 조합으로 실습 환경 구성 가능로컬 클러스터(Spark Local[n]) 방식으로 멀티스레드 테스트도 가능다른 구성 방법 (참고)Docker 또는 로컬 클러스터 구성Spark Master + Wor..

format_list_bulleted Data Engineering/Spark
· 2025. 5. 26.
textsms

[Spark] 스파크 RDD란? (Resilient Distributed Dataset) - 2

Spark를 사용하기 앞서 RDD라는 기본적인 데이터 구조에 대해 확실히 이해하는것이 중요합니다. 지난 포스팅에서는 RDD의 개념을 간단하게 알아보았다면 이번에는 RDD가 개발 배경과 특징에 대해 자세히 알아보겠습니다. 1. RDD란?중요한만큼 다시한번 RDD에 대해 알아봅시다.RDDRDD는 immutable한 분산된 object들의 collection이다.RDD의 각 데이터셋은 logical patition으로 나눠져있어 클러스터 내의 물리적으로 다른 컴퓨팅노드에서 처리될 수 있다.read-only의 파티션된 record의 집합이다.storage나 다른 RDD로 부터 deterministic operation(결정론적인 동작, Spark의 API)을 통해서 만들어질 수 있다.병렬로 실행될 수 있는 Fa..

format_list_bulleted Data Engineering/Spark
· 2025. 5. 26.
textsms

[Spark] 스파크 RDD란? (Resilient Distributed Dataset) - 1

RDD - 탄력적인 분산 데이터셋이란?스파크의 데이터 구조는 크게 3종류가 있습니다. - RDD (Resilient Distributed Dataset) - Dataframe - Dataset RDD는 그 중 가장 처음으로 도입된 데이터 구조로 Spark 1.0부터 도입된 가장 기초적인 데이터 구조입니다. (현재 Spark 3.0) 이름을 풀어보면 이렇게 해석이 가능하겠습니다.Resilient(탄력적인, 회복력 있는, 변하지 않는) : 메모리 내부에서 데이터가 손실 시 유실된 파티션을 재연산해 복구할 수 있음Distributed(분산된) : 스파크 클러스터를 통하여, 메모리에 분산되어 저장됨Data : 파일, 정보 등 RDD 특징 5가지1. 데이터 추상화데이터는 클러스터에 흩어져있지만 하나의 파일인것 ..

format_list_bulleted Data Engineering/Spark
· 2025. 5. 26.
textsms

[Spark] 스파크의 특징과 기본 개념 - 2

지난 포스팅에서 스파크에 대한 기본 구조를 알아보았습니다. 이번 포스팅에서는 좀더 깊게 들어가서 스파크의 아키텍처를 알아보고 어떻게 동작되는지 알아보겠습니다. 1. 스파크 아키텍처 1.1 스파크 아키텍처 기본 구성스파크 아키텍처는 크게 아래와같이 3가지로 구성되어 있습니다.Driver : Spark Application의 시작점Cluster Manager : Yarn, Mesos, K8s 같은 자원 관리 매니저Worker Node : 실제 작업이 실행되는 환경 1.2 스파크 작업 흐름Spark Driver는 Spark 프로그램의 중앙 처리장치입니다. Spark Context를 시작하고, 제출된 어플리케이션의 실행을 담당합니다.어플리케이션의 실행은 코드 내용을 보고 job의 순서(DAG 형식)로 나눕니다...

format_list_bulleted Data Engineering/Spark
· 2025. 5. 17.
textsms

[Spark] 스파크의 특징과 기본 개념 - 1

1. 스파크란아파치 스파크(apache spark)는 2011년 버클리 대학의 AMPlam에서 개발되어 현재는 아파치 재단의 오픈소스로 관리되고 있는 인메모리 기반의 대용량 데이터 고속 처리 엔진으로 범용 분산 클러스터 컴퓨팅 프레임워크 입니다. 2. 특징Speed : 인메모리(In-Memory) 기반의 빠른 처리Ease of Use : 다양한 언어 지원(Java, Scala, Python, R, SQL)을 통한 사용의 편이성Generality : SQL, Streaming, 머신러닝, 그래프 연산 등 다양한 컴포턴트 제공Run Everywhere : YARN, Mesos, Kubernetes등 다양한 클러스터에서 동작 가능HDFS, Casandra, HBase 등 다양한 파일 포맷 지원해당 특징에 대해..

format_list_bulleted Data Engineering/Spark
· 2025. 5. 17.
textsms

[Spark] Spark SQL, DataFrame, Datasets (Structured Data)

1. Structured vs Unstructured Data Unstructured (free form) : 로그 파일, 이미지 Semi Structured (행과 열 or key와 value) : CSV, JSON, XML Structured (행과 열 + 데이터 타입(스키마)) : 데이터베이스 2. Structured Data vs RDD RDD 데이터의 구조를 모르기때문에 데이터를 다루는 것을 개발자에게 의존 Map, flatMap, filter등을 통해 유저가 만든 function을 수행 -> 유저 숙련도에 따라 성능이 차이나게됨 Structured Data 데이터의 구조를 이미 알고있으므로 어떤 테스크를 수행할것인지 정의만 하면 됨 최적화 자동으로 수행됨 (Catalyst Optimize와 T..

format_list_bulleted Data Engineering/Spark
· 2022. 6. 21.
textsms