TJ_Log
close
프로필 배경
프로필 로고

TJ_Log

  • 분류 전체보기 (101)
    • Data Engineering (30)
      • Data Engineering? (2)
      • Hadoop (3)
      • Elasticsearch (0)
      • Redis (4)
      • Spark (6)
      • Kafka (5)
      • Airflow (2)
      • DB (2)
      • 자격증 (6)
    • Data Analysis (2)
      • Machine Learning(ML) (1)
      • NLP (1)
    • Infra (9)
    • ETC (19)
      • Network (1)
      • Linux (4)
      • Algorithm (3)
      • Spring (3)
      • Python (2)
      • Scala (2)
      • Java (3)
      • Javascript (1)
    • Project (9)
    • Trouble shooting (2)
    • Experience (1)
    • Programmers TIL (28)
      • Algorithm (8)
  • 홈
  • 태그
  • 방명록

[Kafka] EKS에서 Strimzi Kafka Connect와 S3 Sink Connector 설정 및 트러블슈팅

1. 기본 환경 설정최종 구성Kafka 클러스터는 EKS 위에 Strimzi Operator를 이용해 구성하였고, 여기에 Kafka Connect와 Confluent S3 Sink Connector를 배포하여 데이터를 실시간으로 S3로 적재하는 구조를 만들었다. 구성은 크게 세 부분으로 나눌 수 있다.Kafka Connect 설정S3 Sink Connector 설정EKS Pod Identity를 통한 권한 관리1. 1 Kafka Connect 설정Kafka Connect는 Strimzi KafkaConnect CRD로 배포하였다. Confluent S3 Sink 플러그인을 직접 포함한 이미지를 빌드하고, DockerHub에 푸시하여 사용했다.apiVersion: kafka.strimzi.io/v1beta..

  • format_list_bulleted Data Engineering/Kafka
  • · 2025. 9. 9.
  • textsms
[Airflow] Airflow On Kubernetes - Airflow API 서버 CrashLoopBackOFF 원인 찾기

[Airflow] Airflow On Kubernetes - Airflow API 서버 CrashLoopBackOFF 원인 찾기

안녕하세요! 최근 Airflow Helm Chart를 사용하여 GKE(Google Kubernetes Engine)에 Airflow를 배포하면서 겪었던 흥미로운 문제 해결 과정을 공유하려고 합니다. 배포 과정에서 airflow-api-server Pod가 계속해서 CrashLoopBackOff 상태에 빠지는 문제가 발생했는데요. 해당 문제를 해결해 가는 과정을 단계별로 정리했습니다. 문제: Pod의 무한 재시작kubectl get po 명령어를 실행했을 때, airflow-api-server Pod의 STATUS가 Running으로 표시되지만 READY 상태가 0/1이고, RESTARTS 카운트가 계속 올라가는 현상이 발생했습니다. 이는 Pod 내부의 컨테이너가 정상적으로 시작되지 못하고 계속 충돌하고 ..

  • format_list_bulleted Data Engineering/Airflow
  • · 2025. 8. 18.
  • textsms
[Kafka] Kubernetes환경에서 Kafka 구성하기 (with Strimzi)

[Kafka] Kubernetes환경에서 Kafka 구성하기 (with Strimzi)

1. Kafka와 Strimzi에 대한 설명Kafka란? Apache Kafka는 대용량 실시간 데이터를 처리하기 위한 분산 이벤트 스트리밍 플랫폼입니다. 주로 아래와 같은 역할을 수행합니다.메시지 큐(Message Queue): 생산자(Producer)가 보낸 메시지를 소비자(Consumer)가 받아서 처리할 수 있도록 저장하고 전달하는 역할을 합니다.분산 시스템: 여러 대의 서버(브로커)에 데이터를 분산 저장하여 확장성과 안정성을 확보합니다.고성능 및 확장성: 초당 수백만 건의 이벤트를 처리할 수 있으며, 필요에 따라 브로커 수를 늘려 성능을 확장할 수 있습니다.지속성: 디스크에 데이터를 저장하여 장애 발생 시에도 데이터 손실 없이 복구할 수 있습니다.Strimzi란? Strimzi는 쿠버네티스(Ku..

  • format_list_bulleted Data Engineering/Kafka
  • · 2025. 8. 10.
  • textsms
[Airflow] Airflow on Kubernetes - Kubernetes에서 Airflow 운영하기

[Airflow] Airflow on Kubernetes - Kubernetes에서 Airflow 운영하기

데이터 엔지니어링 학습 중 다양한 데이터 파이프라인을 구축해보면서 복잡한 워크플로우를 자동으로 관리하고 모니터링하는 시스템에 대한 필요성이 커졌습니다. 이번 포스팅에서는 Airflow와 Kubernetes를 통해 안정적이고 효율적인 데이터 파이프라인을 구축을 위해 필요한 기본 개념에 대해 알아보겠습니다. 이번 포스팅은 Line Engineering의 Kubernetes를 이용한 효율적인 데이터 엔지니어링(Airflow on Kubernetes VS Airflow Kubernetes Executor)글을 참고하여 작성하였습니다.https://engineering.linecorp.com/ko/blog/data-engineering-with-airflow-k8s-1 Kubernetes를 이용한 효율적인 데이터..

  • format_list_bulleted Data Engineering/Airflow
  • · 2025. 8. 5.
  • textsms

[Project] DE Pro Project (HighPipe) - 프로젝트 개요와 PRD

소비자들은 상품을 구매할 때 리뷰를 꼼꼼하게 살피지만, 방대한 양의 리뷰를 일일이 읽고 핵심을 파악하기란 쉽지 않습니다. 판매자 역시 시장의 흐름을 파악하고 마케팅 전략을 세우는 데 어려움을 겪곤 하죠. 저희 팀은 이러한 불편함을 해소하고자 "상품 리뷰 기반 실시간 감정 분석 및 요약 서비스"를 기획했습니다.이 서비스는 사용자가 원하는 상품의 리뷰를 실시간으로 수집하고, LLM(대규모 언어 모델)을 활용해 감정 분석과 핵심 요약까지 제공하는 것을 목표로 합니다. 나아가 관심 상품의 가격 변동이나 리뷰 변화 추이까지 한눈에 파악할 수 있는 기능까지 포함하는 종합적인 서비스가 될 것입니다.저희는 고가용성 서비스 운영 및 기존 pipeline을 고도화한다는 의미를 담은 HighPipe로 프로젝트 명을 정했습니..

  • format_list_bulleted Project
  • · 2025. 8. 3.
  • textsms

[Project] DE Toy Project에서 DE Pro Project로

1. DE Pro Project의 시작DE Toy Project 고도화를 위한 기능 설계 이후 새로운 기술 스택을 배우는 시간을 가졌습니다. Kubernetes, Kafka, Spark등의 새로운 기술을 배우고 실습을 진행했습니다. 그렇게 시간이 흘러 KOSA에서 수강중인 Cloud Solution Architect 과정 중 final project를 진행하게 되었습니다. 해당 교육과정의 semi project로 Hybrid cloud를 구축하는 team project를 진행했습니다. 이번 final project는 해당 프로젝트에서 발전시켜 aws환경에서 EKS(Kubernetes)와 CI/CD 접목한 data pipeline 자동화를 구축하기로 했습니다. 사실 그전에도 DE Toy Project를 하..

  • format_list_bulleted Project
  • · 2025. 7. 28.
  • textsms
  • navigate_before
  • 1
  • 2
  • 3
  • 4
  • ···
  • 17
  • navigate_next
공지사항
전체 카테고리
  • 분류 전체보기 (101)
    • Data Engineering (30)
      • Data Engineering? (2)
      • Hadoop (3)
      • Elasticsearch (0)
      • Redis (4)
      • Spark (6)
      • Kafka (5)
      • Airflow (2)
      • DB (2)
      • 자격증 (6)
    • Data Analysis (2)
      • Machine Learning(ML) (1)
      • NLP (1)
    • Infra (9)
    • ETC (19)
      • Network (1)
      • Linux (4)
      • Algorithm (3)
      • Spring (3)
      • Python (2)
      • Scala (2)
      • Java (3)
      • Javascript (1)
    • Project (9)
    • Trouble shooting (2)
    • Experience (1)
    • Programmers TIL (28)
      • Algorithm (8)
최근 글
인기 글
최근 댓글
태그
  • #data engineering associate
  • #docker
  • #Kafka
  • #scala
  • #spark
  • #db
  • #RDB
  • #dea
  • #자격증
전체 방문자
오늘
어제
전체
Copyright © 쭈미로운 생활 All rights reserved.
Designed by JJuum

티스토리툴바