TJ_Log
close
프로필 배경
프로필 로고

TJ_Log

  • 분류 전체보기 (99)
    • Data Engineering (28)
      • Data Engineering? (2)
      • Hadoop (3)
      • Elasticsearch (0)
      • Redis (4)
      • Spark (6)
      • Kafka (4)
      • Airflow (1)
      • DB (2)
      • 자격증 (6)
    • Data Analysis (2)
      • Machine Learning(ML) (1)
      • NLP (1)
    • Infra (9)
    • ETC (19)
      • Network (1)
      • Linux (4)
      • Algorithm (3)
      • Spring (3)
      • Python (2)
      • Scala (2)
      • Java (3)
      • Javascript (1)
    • Project (9)
    • Trouble shooting (2)
    • Experience (1)
    • Programmers TIL (28)
      • Algorithm (8)
  • 홈
  • 태그
  • 방명록

[Spark] Spark SQL _TIL

Spark SQL이란? - Spark SQL은 구조화된 데이터 처리를 위한 Spark 모듈 - 데이터 프레임 작업을 SQL로 처리 가능 데이터프레임에 테이블 이름 지정 후 sql함수 사용가능 판다스에도 pandassql 모듈의 sqldf함수를 이용하는 동일한 패턴 존재 HQL(Hive Query Language)과 호환 제공 Hive테이블들 읽고 쓸 수 있음 (Hive Metastore) Spark SQL vs DataFrame - SQL로 가능한 작업이라면 DataFrame을 사용할 이유가 없음 두 개를 동시에 사용할 수 있다는 점이 중요 (ex. SQL로 질의하고 데이터 프레임 기반으로 테이블 뷰 생성) - Spark SQL 사용 시 이점 Familiarity / Readability SQL이 가독성..

  • format_list_bulleted Programmers TIL
  • · 2023. 7. 5.
  • textsms

[Spark] Spark 프로그램 구조 _TIL

Spark Session - Spark 프로그램의 시작은 SparkSession을 만드는 것 프로그램마다 하나를 만들어 Spark Cluster와 통신(singleton 객체) Spark 2.0에서 처음 소개됨 - Spark Session을 통해 Spark이 제공해주는 다양한 기능을 사용 DataFrame, SQL, Straeming, ML Api모두 이 객체로 통신 config 메소드를 이용해 다양한 환경설정 가능 단 RDD와 관련된 작업을 할때는 SparkSession밑의 sparkContext객체를 사용 - 관련 문서 : https://spark.apache.org/docs/3.1.1/api/python/reference/api/pyspark.sql.SparkSession.html pyspark.s..

  • format_list_bulleted Programmers TIL
  • · 2023. 7. 4.
  • textsms
[Spark] Spark 데이터 시스템 구조  _TIL

[Spark] Spark 데이터 시스템 구조 _TIL

Spark 데이터 시스템 아키텍처 - 아키텍처 데이터 병렬 처리 - 하둡 맵의 데이터 처리 단위는 디스크에 있는 데이터 블록(128MB) hdfs-site.xml에 있는 dfs.block.size 프로퍼티가 결정 - spark 에서는 이를 파티션이라 부름. 파티션의 기본크기도 128MB spark.sql.files.maxPartitionBytes: HDFS등에 있는 파일을 읽어올 때만 적용됨 - 다음으로 나눠진 데이터를 각각 따로 동시 처리 맵리듀스에서 N개의 데이터 블록으로 구성된 파일 처리시 N개의 Map 태스크가 실행 Spark에서는 파티션 단위로 메모리로 로드되어 Executor가 배정됨 Spark 데이터 처리 흐름 - 데이터프레임은 작은 파티션들로 구성됨 데이터프레임은 한번 만ㄴ들어지면 수정 불..

  • format_list_bulleted Programmers TIL
  • · 2023. 7. 4.
  • textsms
[Airflow] Airflow 기타 기능 _TIL

[Airflow] Airflow 기타 기능 _TIL

Dag를 실행하는 방법 - 주기적 실행: schedule로 지정 - 다른 Dag에 의해 트리거 Explicit Trigger: Dag A가 Dag B를 트리거할 수 있도록 명시 (TriggerDagOperator) Reactive Trigger: Dag B가 Dag A가 끝나기를 대기 (ExternalTaskSensor) - 알아두면 좋은 상황에 따라 다른 태스크 실행 방식들 조건에 따라 다른 태스크로 분기 (BranchPythonOperator) 과거 데이터 Backfill시에는 불필요한 태스크 처리 (LatestOnlyOperator) 앞단 태스크들의 실행상황 (어던 경우에는 앞단이 실패해도 동작해야하는 경우가 있을 수 있음) Dag에 의한 트리거 - TriggerDagOperator Dag A의 태..

  • format_list_bulleted Programmers TIL
  • · 2023. 6. 21.
  • textsms
[K8s] Kubernetes(K8s)_TIL

[K8s] Kubernetes(K8s)_TIL

Kubernetes란 - 컨테이너 기반 서비스 배포/스케일/관리 자동화를 해주는 오픈소스 프레임웍 구글에서 사용하던 Borg 서비스를 오픈소스화함 (2015년) 클라우드나 on-prem 모두에서 잘 동잘됨 다양한 Container에서 사용 가능하지만 주로 Docker Container들이 대상이 됨 물리서버나 가상서버 위에서 모두 동작 - 지금은 Cloud Native Computing Foundation이라는 비영리 단체에서 운영 클라우드 환경에서 어떻게 소프트웨어를 배포하는 것이 효율적일까? 컨테이너, 서비스메시, 마이크로서비스, API, DevOps, On-demand Infra가 주요 핵심 기술 - 가장 많이 사용되는 컨테이너 관리시스템 = K8s 사용회사와 커뮤니티 활동이 굉장히 많고 활발 카카..

  • format_list_bulleted Programmers TIL
  • · 2023. 6. 16.
  • textsms
[Docker] Docker Compose_TIL

[Docker] Docker Compose_TIL

Docker-compose.yml 구성 - 다양한 버전이 존재하는데 본 블로그는 v2와 v3가 합쳐진 버전 사용 기준으로 설명함 - services: 다음으로 프로그램을 구성하는 서비스들을 지정 각 서비스는 별개의 Docker Image 지정과 Docker Container 실행으로 구성됨 즉, 각 서비스는 자신의 Dockerfile을 갖고 있어야함 아니면 Docker hub등에서 이미지를 다운로드 서비스별로 포트번호, 환경변수, 디스크 볼륨등을 지정해야함 서비스 이름은 아무 이름이나 가능 - volumes: servieces 에서 사용할 docker volume들을 지정 (해당 내용을 지정해줘야 services에서 사용가능) - networks: servieces 에서 사용할 network들을 지정 (..

  • format_list_bulleted Programmers TIL
  • · 2023. 6. 15.
  • textsms
  • navigate_before
  • 1
  • ···
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • ···
  • 17
  • navigate_next
공지사항
전체 카테고리
  • 분류 전체보기 (99)
    • Data Engineering (28)
      • Data Engineering? (2)
      • Hadoop (3)
      • Elasticsearch (0)
      • Redis (4)
      • Spark (6)
      • Kafka (4)
      • Airflow (1)
      • DB (2)
      • 자격증 (6)
    • Data Analysis (2)
      • Machine Learning(ML) (1)
      • NLP (1)
    • Infra (9)
    • ETC (19)
      • Network (1)
      • Linux (4)
      • Algorithm (3)
      • Spring (3)
      • Python (2)
      • Scala (2)
      • Java (3)
      • Javascript (1)
    • Project (9)
    • Trouble shooting (2)
    • Experience (1)
    • Programmers TIL (28)
      • Algorithm (8)
최근 글
인기 글
최근 댓글
태그
  • #spark
  • #Kafka
  • #자격증
  • #docker
  • #scala
  • #data engineering associate
  • #RDB
  • #dea
  • #db
전체 방문자
오늘
어제
전체
Copyright © 쭈미로운 생활 All rights reserved.
Designed by JJuum

티스토리툴바