TJ_Log
close
프로필 배경
프로필 로고

TJ_Log

  • 분류 전체보기 (99)
    • Data Engineering (28)
      • Data Engineering? (2)
      • Hadoop (3)
      • Elasticsearch (0)
      • Redis (4)
      • Spark (6)
      • Kafka (4)
      • Airflow (1)
      • DB (2)
      • 자격증 (6)
    • Data Analysis (2)
      • Machine Learning(ML) (1)
      • NLP (1)
    • Infra (9)
    • ETC (19)
      • Network (1)
      • Linux (4)
      • Algorithm (3)
      • Spring (3)
      • Python (2)
      • Scala (2)
      • Java (3)
      • Javascript (1)
    • Project (9)
    • Trouble shooting (2)
    • Experience (1)
    • Programmers TIL (28)
      • Algorithm (8)
  • 홈
  • 태그
  • 방명록
[Spark] 스파크의 특징과 기본 개념 - 2

[Spark] 스파크의 특징과 기본 개념 - 2

지난 포스팅에서 스파크에 대한 기본 구조를 알아보았습니다. 이번 포스팅에서는 좀더 깊게 들어가서 스파크의 아키텍처를 알아보고 어떻게 동작되는지 알아보겠습니다. 1. 스파크 아키텍처 1.1 스파크 아키텍처 기본 구성스파크 아키텍처는 크게 아래와같이 3가지로 구성되어 있습니다.Driver : Spark Application의 시작점Cluster Manager : Yarn, Mesos, K8s 같은 자원 관리 매니저Worker Node : 실제 작업이 실행되는 환경 1.2 스파크 작업 흐름Spark Driver는 Spark 프로그램의 중앙 처리장치입니다. Spark Context를 시작하고, 제출된 어플리케이션의 실행을 담당합니다.어플리케이션의 실행은 코드 내용을 보고 job의 순서(DAG 형식)로 나눕니다...

  • format_list_bulleted Data Engineering/Spark
  • · 2025. 5. 17.
  • textsms
[Spark] 스파크의 특징과 기본 개념 - 1

[Spark] 스파크의 특징과 기본 개념 - 1

1. 스파크란아파치 스파크(apache spark)는 2011년 버클리 대학의 AMPlam에서 개발되어 현재는 아파치 재단의 오픈소스로 관리되고 있는 인메모리 기반의 대용량 데이터 고속 처리 엔진으로 범용 분산 클러스터 컴퓨팅 프레임워크 입니다. 2. 특징Speed : 인메모리(In-Memory) 기반의 빠른 처리Ease of Use : 다양한 언어 지원(Java, Scala, Python, R, SQL)을 통한 사용의 편이성Generality : SQL, Streaming, 머신러닝, 그래프 연산 등 다양한 컴포턴트 제공Run Everywhere : YARN, Mesos, Kubernetes등 다양한 클러스터에서 동작 가능HDFS, Casandra, HBase 등 다양한 파일 포맷 지원해당 특징에 대해..

  • format_list_bulleted Data Engineering/Spark
  • · 2025. 5. 17.
  • textsms
[AWS DEA] 데이터 파이프라인 오케스트레이션 - 1

[AWS DEA] 데이터 파이프라인 오케스트레이션 - 1

지난 포스팅에서는 데이터 수집과 변환 및 처리를 알아보았습니다. 이번에는 데이터 수명 주기를 관리하기 위한 데이터 아키텍처 통합역할을 하는 데이터 파이프라인 오케스트레이션을 알아보겠습니다. 1. 데이터 아키텍처 지속적으로 진화하는 데이터 요구 사항에 대응할 수 있는 데이터 파이프라인을 만들기위해 아키텍처를 구상할 때 다방면의 운영 및 기술적 요소들을 고려해야합니다. 1.1 최적의 데이터 아키텍처 구축 핵심 요소Operational Excellence (운영 우수성)목표: 시스템을 운영하고 개선하며 비즈니스 가치를 지속적으로 전달할 수 있도록 지원핵심 개념:자동화된 모니터링 및 경보반복 가능한 변경 절차실험과 학습을 통한 개선예시: CI/CD 파이프라인을 통한 자동 배포 및 롤백 구현Security (..

  • format_list_bulleted Data Engineering/자격증
  • · 2025. 5. 16.
  • textsms
[AWS DEA] 데이터 변환 및 처리 - 2

[AWS DEA] 데이터 변환 및 처리 - 2

지난 포스팅에 이어 AWS서비스를 활용한 데이터 변환 및 처리 예시와 작업 중 발생할 수 있는 문제와 해결방법을 살펴보고, 안전하게 데이터를 다룰 수 있는 연결 방법과 Data API에 대해 알아보겠습니다. 1. 데이터 변환 및 처리 문제 해결 흐름1.1 대용량 데이터 조인 문제 상황여러분이 근무하는 의류 회사에서 데이터 카탈로그와 통합된 S3 버킷에 모든 과거 트랜잭션이 저장되어 있습니다. 해당 과거 트랜잭션을 판매 실적 보고서 데이터와 조인한다고 가정해 보겠습니다. 데이터 처리는 Amazon Redshift 클러스터에서 진행됩니다. 데이터 분석가가 여러분에게 Amazon Redshift클러스터의 워크로드를 줄이기 위한 솔루션을 제공해 달라고 요청했습니다.해결 방법방법중 하나는 Amazon Redsh..

  • format_list_bulleted Data Engineering/자격증
  • · 2025. 5. 15.
  • textsms
[AWS DEA] 데이터 변환 및 처리 - 1

[AWS DEA] 데이터 변환 및 처리 - 1

지난 포스팅인 수집 단계에서는 데이터를 다른 위치로 이동하는 것이 주요 목적이었다면, 변환에서는 해당 데이터를 유용하게 만들어야 합니다. 이번 포스팅에서 데이터 변환이 무엇인지 그리고 이 단계에서 데이터 엔지니어가 고려해야 하는 사항에 대해 알아봅시다. 1. 데이터 변환 도구와 방법 변환은 데이터를 원래 형식에서 다운스트림 사용 사례에 유용한 다른 형식으로 변경하는 것을 의미합니다. 데이터는 적절히 변환되지 않으면 보고서, 분석, 기계 학습 등에 사용할 수 없습니다. 원시 데이터를 이해 관계자가 사용할 수 있는 데이터로 전환하는 데 사용하는 도구는 다음과 같습니다.쿼리쿼리는 데이터 엔지니어링, 데이터 과학 및 분석의 기본 요소입니다.쿼리를 통해 데이터를 검색하고 이를 기반으로 작업을 수행할 수 있습니다...

  • format_list_bulleted Data Engineering/자격증
  • · 2025. 5. 14.
  • textsms

[AWS DEA] 데이터 수집 - 2

지난 포스팅에는 데이터 수명 주기, 데이터 수집 시 고려사항에 대해 알아보았습니다. 이번에는 데이터 수집과 빅데이터의 기본 개념에 대해 이해해보고 데이터 수집 시 어떤 AWS 서비스를 사용할 수 있는지 알아보겠습니다. 1. 데이터 수집에 대해데이터 수집 프로세스는 생산자에서 시작됩니다. 생산자는 데이터베이스, 모바일 디바이스, 애플리케이션 등 다양하게 있으며 생산자가 데이터를 생성하면 수집 도구가 데이터를 수집합니다. EC2에 호스팅되는 애플리케이션 부터 AWS 데이터베이스, AWS Lambda와 같은 컴퓨팅 서비스 등이 수집된 데이터의 소비자가 될 수 있습니다. 1.1 AWS 데이터 수집 예시다음과 같이 데이터 수집을 해야하는 상황이 있습니다.애플리케이션이 파일이 S3 데이터 레이크에 기록됩니다.데..

  • format_list_bulleted Data Engineering/자격증
  • · 2025. 5. 13.
  • textsms
  • navigate_before
  • 1
  • ···
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • ···
  • 17
  • navigate_next
공지사항
전체 카테고리
  • 분류 전체보기 (99)
    • Data Engineering (28)
      • Data Engineering? (2)
      • Hadoop (3)
      • Elasticsearch (0)
      • Redis (4)
      • Spark (6)
      • Kafka (4)
      • Airflow (1)
      • DB (2)
      • 자격증 (6)
    • Data Analysis (2)
      • Machine Learning(ML) (1)
      • NLP (1)
    • Infra (9)
    • ETC (19)
      • Network (1)
      • Linux (4)
      • Algorithm (3)
      • Spring (3)
      • Python (2)
      • Scala (2)
      • Java (3)
      • Javascript (1)
    • Project (9)
    • Trouble shooting (2)
    • Experience (1)
    • Programmers TIL (28)
      • Algorithm (8)
최근 글
인기 글
최근 댓글
태그
  • #db
  • #RDB
  • #자격증
  • #spark
  • #scala
  • #Kafka
  • #docker
  • #data engineering associate
  • #dea
전체 방문자
오늘
어제
전체
Copyright © 쭈미로운 생활 All rights reserved.
Designed by JJuum

티스토리툴바