TJ_Log
close
프로필 배경
프로필 로고

TJ_Log

  • 분류 전체보기 (100)
    • Data Engineering (29)
      • Data Engineering? (2)
      • Hadoop (3)
      • Elasticsearch (0)
      • Redis (4)
      • Spark (6)
      • Kafka (4)
      • Airflow (2)
      • DB (2)
      • 자격증 (6)
    • Data Analysis (2)
      • Machine Learning(ML) (1)
      • NLP (1)
    • Infra (9)
    • ETC (19)
      • Network (1)
      • Linux (4)
      • Algorithm (3)
      • Spring (3)
      • Python (2)
      • Scala (2)
      • Java (3)
      • Javascript (1)
    • Project (9)
    • Trouble shooting (2)
    • Experience (1)
    • Programmers TIL (28)
      • Algorithm (8)
  • 홈
  • 태그
  • 방명록

[Project] DE Toy Project - 데이터 수집(쿠팡 크롤링과 병렬 처리) 3

지난 포스팅에서 이어집니다. [Project] DE Toy Project - 데이터 수집(쿠팡 상품 리뷰 크롤링) 1지난 포스팅에서 이어집니다. [Project] DE Toy Project - 데이터 수집(네이버 쇼핑 리뷰 크롤링 삽질하기)1. 프로젝트 주제이번 프로젝트의 목표는 사용자가 검색한 상품에 대한 준 실시간 리뷰 요약tjlog-tistory.tistory.com 이번 포스팅에서는 쿠팡 크롤링과 병렬 처리를 구현한 내용과 소소한 팁을 작성했습니다. 1. 프로젝트 목표이번 프로젝트는 쿠팡 상품의 기본 정보 및 리뷰 데이터를 수집하여, 이후 텍스트 분석을 위한 데이터 파이프라인을 구축하는 과정을 정리한 기록입니다. 단순 크롤링이 아닌 병렬 처리, 데이터 저장, 후속 분석 작업까지 연결된 전체 흐름을..

  • format_list_bulleted Project
  • · 2025. 6. 24.
  • textsms
[Project] DE Toy Project - 데이터 수집(쿠팡 상품 리뷰 크롤링) 2

[Project] DE Toy Project - 데이터 수집(쿠팡 상품 리뷰 크롤링) 2

지난 포스팅에서 이어집니다. [Project] DE Toy Project - 데이터 수집(네이버 쇼핑 리뷰 크롤링 삽질하기)1. 프로젝트 주제이번 프로젝트의 목표는 사용자가 검색한 상품에 대한 준 실시간 리뷰 요약 및 감정 분석 시스템을 만드는 것이다.단순한 데이터 분석이 아닌, 실제 웹에서 데이터를 수집하고tjlog-tistory.tistory.com 이번 포스팅에서는 쿠팡 상품 리뷰를 크롤링하며 겪은 내용과 고민들을 작성했습니다. 1. 프로젝트 목표이번 프로젝트의 목표는 사용자가 검색한 상품에 대한 준 실시간 리뷰 요약 및 감정 분석 시스템을 만드는 것입니다.단순한 데이터 분석이 아닌, 실제 웹에서 데이터를 수집하고 처리하는 ETL 흐름까지 구현하고자 했습니다. 2. 데이터 수집 목표준실시간성을 고려..

  • format_list_bulleted Project
  • · 2025. 6. 5.
  • textsms

[Project] DE Toy Project - 데이터 수집(네이버 쇼핑 리뷰 크롤링 삽질하기) 1

1. 프로젝트 주제이번 프로젝트의 목표는 사용자가 검색한 상품에 대한 준 실시간 리뷰 요약 및 감정 분석 시스템을 만들고 싶었습니다.단순한 데이터 분석이 아닌, 실제 웹에서 데이터를 수집하고 처리하는 ETL 흐름까지 구현하고자 했습니다. 2. 주제 선정 이유이 주제를 선택한 이유는 다음과 같습니다.복잡한 웹사이트에서 크롤링 실전 경험을 쌓고 싶었습니다.점차 병렬 처리, 성능 개선까지 연결해 크롤링 성능 향상 과정을 경험하고 싶었습니다.수집한 텍스트 데이터를 기반으로 ML / LLM 기반 분석을 해보고 싶었습니다.무엇보다도, Spark를 활용해 대용량 텍스트 데이터를 처리할 수 있어야 했습니다. 3. 데이터 수집 목표준실시간성을 고려한 ETL 파이프라인 구성높은 속도로 대량의 리뷰 수집 실현Spark ..

  • format_list_bulleted Project
  • · 2025. 5. 30.
  • textsms
  • navigate_before
  • 1
  • 2
  • navigate_next
공지사항
전체 카테고리
  • 분류 전체보기 (100)
    • Data Engineering (29)
      • Data Engineering? (2)
      • Hadoop (3)
      • Elasticsearch (0)
      • Redis (4)
      • Spark (6)
      • Kafka (4)
      • Airflow (2)
      • DB (2)
      • 자격증 (6)
    • Data Analysis (2)
      • Machine Learning(ML) (1)
      • NLP (1)
    • Infra (9)
    • ETC (19)
      • Network (1)
      • Linux (4)
      • Algorithm (3)
      • Spring (3)
      • Python (2)
      • Scala (2)
      • Java (3)
      • Javascript (1)
    • Project (9)
    • Trouble shooting (2)
    • Experience (1)
    • Programmers TIL (28)
      • Algorithm (8)
최근 글
인기 글
최근 댓글
태그
  • #RDB
  • #scala
  • #자격증
  • #data engineering associate
  • #db
  • #spark
  • #docker
  • #Kafka
  • #dea
전체 방문자
오늘
어제
전체
Copyright © 쭈미로운 생활 All rights reserved.
Designed by JJuum

티스토리툴바