TJ_Log
close
프로필 배경
프로필 로고

TJ_Log

  • 분류 전체보기 (101)
    • Data Engineering (30)
      • Data Engineering? (2)
      • Hadoop (3)
      • Elasticsearch (0)
      • Redis (4)
      • Spark (6)
      • Kafka (5)
      • Airflow (2)
      • DB (2)
      • 자격증 (6)
    • Data Analysis (2)
      • Machine Learning(ML) (1)
      • NLP (1)
    • Infra (9)
    • ETC (19)
      • Network (1)
      • Linux (4)
      • Algorithm (3)
      • Spring (3)
      • Python (2)
      • Scala (2)
      • Java (3)
      • Javascript (1)
    • Project (9)
    • Trouble shooting (2)
    • Experience (1)
    • Programmers TIL (28)
      • Algorithm (8)
  • 홈
  • 태그
  • 방명록
[Kafka] Kafka 아키텍처 _TIL

[Kafka] Kafka 아키텍처 _TIL

데이터 이벤트 스트림 - 데이터 이벤트 스트림을 Topic이라고 부름 Producer는 Topic을 만들고 Consumer는 Topic에서 데이터를 읽어들이는 구조 다수의 Consumer가 같은 Topic을 기반으로 읽어들이는 것이 가능 Topic마다 데이터 보존 기한 및 정책이 있음 (default. 7day) - 이벤트 스트림을 구성하는 요소 (Message) : Key, Value, Timestamp 최대 1MB Timestamp는 보통 데이터가 Topic에 추가된 시점 Key 자체도 복잡한 구조를 가질 수 있음 Key가 나중에 Topic데이터를 나눠서 저장할 때 사용됨 (Partitioning) Header는 선택적 구성요소로 경량 메타 데이터 정보 (key-value pairs) - Topic과..

  • format_list_bulleted Programmers TIL
  • · 2023. 7. 12.
  • textsms

[Kafka] Kafka 역사와 소개 _TIL

Kafka의 역사 - Kafka의 탄생 2008년 LinkedIn에서 내부 실시간 데이터 처리를 위해 개발한 소프트웨어 플랫폼 Scala와 Java로 작성 2011년 초에 오픈소스화 (Apache) 현재 포춘지 선정 100대 기업 중 80%이상이 Kafka를 사용 - Kafka의 발전 2014년 Kafka 개발자들이 LinkedIn에서 나와 Confluent라는 회사 창업 (2021년 미국 나스닥 상장) Kafka 소개 - Kafka란 무엇인가? 실시간 데이터를 처리하기 위해 설계된 오픈소스 분산 스트리밍 플랫폼 데이터 재생이 가능한 분산 커밋 로그 (Distributed Commit Log) Scalability Fault Tolerance를 제공하는 Publish-Subscription 메시징 시스템..

  • format_list_bulleted Programmers TIL
  • · 2023. 7. 12.
  • textsms

[Spark] Spark SQL _TIL

Spark SQL이란? - Spark SQL은 구조화된 데이터 처리를 위한 Spark 모듈 - 데이터 프레임 작업을 SQL로 처리 가능 데이터프레임에 테이블 이름 지정 후 sql함수 사용가능 판다스에도 pandassql 모듈의 sqldf함수를 이용하는 동일한 패턴 존재 HQL(Hive Query Language)과 호환 제공 Hive테이블들 읽고 쓸 수 있음 (Hive Metastore) Spark SQL vs DataFrame - SQL로 가능한 작업이라면 DataFrame을 사용할 이유가 없음 두 개를 동시에 사용할 수 있다는 점이 중요 (ex. SQL로 질의하고 데이터 프레임 기반으로 테이블 뷰 생성) - Spark SQL 사용 시 이점 Familiarity / Readability SQL이 가독성..

  • format_list_bulleted Programmers TIL
  • · 2023. 7. 5.
  • textsms

[Spark] Spark 프로그램 구조 _TIL

Spark Session - Spark 프로그램의 시작은 SparkSession을 만드는 것 프로그램마다 하나를 만들어 Spark Cluster와 통신(singleton 객체) Spark 2.0에서 처음 소개됨 - Spark Session을 통해 Spark이 제공해주는 다양한 기능을 사용 DataFrame, SQL, Straeming, ML Api모두 이 객체로 통신 config 메소드를 이용해 다양한 환경설정 가능 단 RDD와 관련된 작업을 할때는 SparkSession밑의 sparkContext객체를 사용 - 관련 문서 : https://spark.apache.org/docs/3.1.1/api/python/reference/api/pyspark.sql.SparkSession.html pyspark.s..

  • format_list_bulleted Programmers TIL
  • · 2023. 7. 4.
  • textsms
[Spark] Spark 데이터 시스템 구조  _TIL

[Spark] Spark 데이터 시스템 구조 _TIL

Spark 데이터 시스템 아키텍처 - 아키텍처 데이터 병렬 처리 - 하둡 맵의 데이터 처리 단위는 디스크에 있는 데이터 블록(128MB) hdfs-site.xml에 있는 dfs.block.size 프로퍼티가 결정 - spark 에서는 이를 파티션이라 부름. 파티션의 기본크기도 128MB spark.sql.files.maxPartitionBytes: HDFS등에 있는 파일을 읽어올 때만 적용됨 - 다음으로 나눠진 데이터를 각각 따로 동시 처리 맵리듀스에서 N개의 데이터 블록으로 구성된 파일 처리시 N개의 Map 태스크가 실행 Spark에서는 파티션 단위로 메모리로 로드되어 Executor가 배정됨 Spark 데이터 처리 흐름 - 데이터프레임은 작은 파티션들로 구성됨 데이터프레임은 한번 만ㄴ들어지면 수정 불..

  • format_list_bulleted Programmers TIL
  • · 2023. 7. 4.
  • textsms
[Airflow] Airflow 기타 기능 _TIL

[Airflow] Airflow 기타 기능 _TIL

Dag를 실행하는 방법 - 주기적 실행: schedule로 지정 - 다른 Dag에 의해 트리거 Explicit Trigger: Dag A가 Dag B를 트리거할 수 있도록 명시 (TriggerDagOperator) Reactive Trigger: Dag B가 Dag A가 끝나기를 대기 (ExternalTaskSensor) - 알아두면 좋은 상황에 따라 다른 태스크 실행 방식들 조건에 따라 다른 태스크로 분기 (BranchPythonOperator) 과거 데이터 Backfill시에는 불필요한 태스크 처리 (LatestOnlyOperator) 앞단 태스크들의 실행상황 (어던 경우에는 앞단이 실패해도 동작해야하는 경우가 있을 수 있음) Dag에 의한 트리거 - TriggerDagOperator Dag A의 태..

  • format_list_bulleted Programmers TIL
  • · 2023. 6. 21.
  • textsms
  • navigate_before
  • 1
  • ···
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • ···
  • 17
  • navigate_next
공지사항
전체 카테고리
  • 분류 전체보기 (101)
    • Data Engineering (30)
      • Data Engineering? (2)
      • Hadoop (3)
      • Elasticsearch (0)
      • Redis (4)
      • Spark (6)
      • Kafka (5)
      • Airflow (2)
      • DB (2)
      • 자격증 (6)
    • Data Analysis (2)
      • Machine Learning(ML) (1)
      • NLP (1)
    • Infra (9)
    • ETC (19)
      • Network (1)
      • Linux (4)
      • Algorithm (3)
      • Spring (3)
      • Python (2)
      • Scala (2)
      • Java (3)
      • Javascript (1)
    • Project (9)
    • Trouble shooting (2)
    • Experience (1)
    • Programmers TIL (28)
      • Algorithm (8)
최근 글
인기 글
최근 댓글
태그
  • #spark
  • #db
  • #자격증
  • #scala
  • #dea
  • #data engineering associate
  • #Kafka
  • #RDB
  • #docker
전체 방문자
오늘
어제
전체
Copyright © 쭈미로운 생활 All rights reserved.
Designed by JJuum

티스토리툴바