TJ_Log
close
프로필 배경
프로필 로고

TJ_Log

  • 분류 전체보기 (101)
    • Data Engineering (30)
      • Data Engineering? (2)
      • Hadoop (3)
      • Elasticsearch (0)
      • Redis (4)
      • Spark (6)
      • Kafka (5)
      • Airflow (2)
      • DB (2)
      • 자격증 (6)
    • Data Analysis (2)
      • Machine Learning(ML) (1)
      • NLP (1)
    • Infra (9)
    • ETC (19)
      • Network (1)
      • Linux (4)
      • Algorithm (3)
      • Spring (3)
      • Python (2)
      • Scala (2)
      • Java (3)
      • Javascript (1)
    • Project (9)
    • Trouble shooting (2)
    • Experience (1)
    • Programmers TIL (28)
      • Algorithm (8)
  • 홈
  • 태그
  • 방명록
[Spark] Spark 데이터 시스템 구조  _TIL

[Spark] Spark 데이터 시스템 구조 _TIL

Spark 데이터 시스템 아키텍처 - 아키텍처 데이터 병렬 처리 - 하둡 맵의 데이터 처리 단위는 디스크에 있는 데이터 블록(128MB) hdfs-site.xml에 있는 dfs.block.size 프로퍼티가 결정 - spark 에서는 이를 파티션이라 부름. 파티션의 기본크기도 128MB spark.sql.files.maxPartitionBytes: HDFS등에 있는 파일을 읽어올 때만 적용됨 - 다음으로 나눠진 데이터를 각각 따로 동시 처리 맵리듀스에서 N개의 데이터 블록으로 구성된 파일 처리시 N개의 Map 태스크가 실행 Spark에서는 파티션 단위로 메모리로 로드되어 Executor가 배정됨 Spark 데이터 처리 흐름 - 데이터프레임은 작은 파티션들로 구성됨 데이터프레임은 한번 만ㄴ들어지면 수정 불..

  • format_list_bulleted Programmers TIL
  • · 2023. 7. 4.
  • textsms
[Airflow] Airflow 기타 기능 _TIL

[Airflow] Airflow 기타 기능 _TIL

Dag를 실행하는 방법 - 주기적 실행: schedule로 지정 - 다른 Dag에 의해 트리거 Explicit Trigger: Dag A가 Dag B를 트리거할 수 있도록 명시 (TriggerDagOperator) Reactive Trigger: Dag B가 Dag A가 끝나기를 대기 (ExternalTaskSensor) - 알아두면 좋은 상황에 따라 다른 태스크 실행 방식들 조건에 따라 다른 태스크로 분기 (BranchPythonOperator) 과거 데이터 Backfill시에는 불필요한 태스크 처리 (LatestOnlyOperator) 앞단 태스크들의 실행상황 (어던 경우에는 앞단이 실패해도 동작해야하는 경우가 있을 수 있음) Dag에 의한 트리거 - TriggerDagOperator Dag A의 태..

  • format_list_bulleted Programmers TIL
  • · 2023. 6. 21.
  • textsms
[K8s] Kubernetes(K8s)_TIL

[K8s] Kubernetes(K8s)_TIL

Kubernetes란 - 컨테이너 기반 서비스 배포/스케일/관리 자동화를 해주는 오픈소스 프레임웍 구글에서 사용하던 Borg 서비스를 오픈소스화함 (2015년) 클라우드나 on-prem 모두에서 잘 동잘됨 다양한 Container에서 사용 가능하지만 주로 Docker Container들이 대상이 됨 물리서버나 가상서버 위에서 모두 동작 - 지금은 Cloud Native Computing Foundation이라는 비영리 단체에서 운영 클라우드 환경에서 어떻게 소프트웨어를 배포하는 것이 효율적일까? 컨테이너, 서비스메시, 마이크로서비스, API, DevOps, On-demand Infra가 주요 핵심 기술 - 가장 많이 사용되는 컨테이너 관리시스템 = K8s 사용회사와 커뮤니티 활동이 굉장히 많고 활발 카카..

  • format_list_bulleted Programmers TIL
  • · 2023. 6. 16.
  • textsms
[Docker] Docker Compose_TIL

[Docker] Docker Compose_TIL

Docker-compose.yml 구성 - 다양한 버전이 존재하는데 본 블로그는 v2와 v3가 합쳐진 버전 사용 기준으로 설명함 - services: 다음으로 프로그램을 구성하는 서비스들을 지정 각 서비스는 별개의 Docker Image 지정과 Docker Container 실행으로 구성됨 즉, 각 서비스는 자신의 Dockerfile을 갖고 있어야함 아니면 Docker hub등에서 이미지를 다운로드 서비스별로 포트번호, 환경변수, 디스크 볼륨등을 지정해야함 서비스 이름은 아무 이름이나 가능 - volumes: servieces 에서 사용할 docker volume들을 지정 (해당 내용을 지정해줘야 services에서 사용가능) - networks: servieces 에서 사용할 network들을 지정 (..

  • format_list_bulleted Programmers TIL
  • · 2023. 6. 15.
  • textsms

[Docker] Docker Volume_TIL

Docker Volume의 필요성 - Docker Container가 실행되었다가 중단되면 데이터들은 어떻게 될까? -> 모두 유실됨 - 특정 소프트웨어가 Docker Container를 통해 일회성으로 동작하는 것이 아니라 계속해서 동작해야 한다면 데이터가 영구적으로 보관되어야함 (ex. 데이터베이스가 Docker Container안에서 동작 시) - 이를 보장하는 기능이 Docker volumes -> Data Persistence - Docker Container내의 가상 파일 시스템과 호스트 시스템의 파일 시스템을 맵핑 예) 호스트 파일 시스템의 /home/user/logs를 Docker Container의 /var/lib/airflow/logs로 맵핑 이 경우 Docker Container가 중..

  • format_list_bulleted Programmers TIL
  • · 2023. 6. 14.
  • textsms
[Docker] Docker 명령 정리_TIL

[Docker] Docker 명령 정리_TIL

Image 관련 - docker 이미지 build - Mac m1 chip의 경우 아래 명령어 실행 ● docker build --platform=linux/amd64 -t hahxowns/hangman (hahxowns/hangman = docker 이미지 이름) - 설치된 이미지 출력 ● docker images ● docker image ls ● docker image ls -aq - docker image 삭제 ● docker image rm ● docker image rm -f $(docker image ls -aq) Docker Hub 관련 ● docker login -u 사용자ID -p 사용자PW ● docker pull hahxowns/hangman (hahxowns/hangman = do..

  • format_list_bulleted Programmers TIL
  • · 2023. 6. 14.
  • textsms
  • navigate_before
  • 1
  • 2
  • 3
  • 4
  • 5
  • navigate_next
공지사항
전체 카테고리
  • 분류 전체보기 (101)
    • Data Engineering (30)
      • Data Engineering? (2)
      • Hadoop (3)
      • Elasticsearch (0)
      • Redis (4)
      • Spark (6)
      • Kafka (5)
      • Airflow (2)
      • DB (2)
      • 자격증 (6)
    • Data Analysis (2)
      • Machine Learning(ML) (1)
      • NLP (1)
    • Infra (9)
    • ETC (19)
      • Network (1)
      • Linux (4)
      • Algorithm (3)
      • Spring (3)
      • Python (2)
      • Scala (2)
      • Java (3)
      • Javascript (1)
    • Project (9)
    • Trouble shooting (2)
    • Experience (1)
    • Programmers TIL (28)
      • Algorithm (8)
최근 글
인기 글
최근 댓글
태그
  • #db
  • #dea
  • #data engineering associate
  • #docker
  • #spark
  • #scala
  • #자격증
  • #Kafka
  • #RDB
전체 방문자
오늘
어제
전체
Copyright © 쭈미로운 생활 All rights reserved.
Designed by JJuum

티스토리툴바