클라우드 아키텍쳐 솔루션 교육 과정 중 팀프로젝트를 진행하게 됐습니다.
주제선정 회의 때 개인적으로 진행한 실시간 쿠팡 리뷰 분석(DE Toy Project)을 하이브리드 클라우드 환경으로 만들어보자는 얘기가 나왔습니다.
당시 쿠팡 크롤링을 한창 테스트 하고 있을 때였고, 웹과 클라우드 환경을 구성해야 했던 저로서는 협업할 수 있는 좋은 기회를 가질 수 있었습니다.
그럼 10일 간 진행한 팀프로젝트 내용을 공유드리겠습니다.
프로젝트 소개
주제
하이브리드 클라우드로 구성한 실시간 쿠팡 리뷰 분석
목표
- 하이브리드 클라우드 구성
- 로컬 서버와 GCP 연동을 통한 유연한 자원 분배
- 보안과 고가용성을 위한 구성
- 데이터 파이프라인 구성
- 크롤링 서버 + API 연동 구조, 백엔드 연계 처리
- 실시간 데이터 ETL 및 분석
- 검색 / 분석 요청 처리 인프라
- 사용자 검색어 기반 분석 요청 흐름 및 응답 설계
- Web 구현
- 사용자 편의성과 직관성있는 Web UI 구현
날짜
2025-06-11 ~ 2025-06-20 (10일)
팀원 및 역할
김선호: 웹 개발, Cloud Run, Cloud SQL, Memory Store
박태준(본인): Data ETL Pipeline 구축, Data 분석, Cloud Storage
정권: NAT, VPN, Monitoring, Logging
한준희: NAT, VPN, 로드 밸런서, Proxy 서버, Auto Scailing
서비스 소개 (Mobile Web)
저희 서비스는 상품을 검색하고 해당 상품에 대한 정보와 리뷰 요약 및 감정 분석 결과를 볼 수 있습니다.
검색 시 실시간으로 데이터 ETL 및 분석이 진행됩니다.
검색된 상품의 정보를 볼 수 있고 해당 상품 클릭 시 리뷰 요약 및 감정 분석 결과를 볼 수 있습니다.
프로젝트 아키텍처
시스템 구성
기술 스택
시스템 구성도
시스템 흐름 차트
데이터 ETL 및 분석
다음은 쿠팡 데이터를 추출하고 처리하여 분석 후 저장하는 과정에 대한 내용입니다.
데이터 추출은 Selenium을 활용해 동적 크롤링을 진행하였고, 대용량 데이터를 빠르게 추출하기위해 멀티 프로세싱으로 진행했습니다.
데이터 처리는 Spark를 사용해 분산처리를 진행했고, Pandas로 분석결과를 처리 및 집계하였습니다.
데이터 저장은 Cloud SQL(Production DB)과 Cloud Storage(Data Lake)에 저장됩니다.
데이터 분석은 Kanana Nano 2.1B 모델로 텍스트를 요약하고, KcELECTRA 기반 모델(감정분류 Fine tunning)로 감정분석을 진행했습니다.
인프라
다음은 하이브리드 클라우드를 도입한 배경입니다.
다음과 같은 이유로 VPN을 도입 했습니다.
시연 영상
추후 업로드
'Project' 카테고리의 다른 글
[Project] DE Toy Project - 데이터 파이프라인 고도화를 위한 기능 설계 (4) | 2025.07.17 |
---|---|
[Project] DE Toy Project - 팀 프로젝트 회고 및 고도화 계획 (0) | 2025.07.03 |
[Project] DE Toy Project - 데이터 분석(분석 모델 테스트) (2) | 2025.06.25 |
[Project] DE Toy Project - 데이터 수집(쿠팡 크롤링과 병렬 처리) 3 (1) | 2025.06.24 |
[Project] DE Toy Project - 데이터 수집(쿠팡 상품 리뷰 크롤링) 2 (2) | 2025.06.05 |