1. 프로젝트 주제
이번 프로젝트의 목표는 사용자가 검색한 상품에 대한 준 실시간 리뷰 요약 및 감정 분석 시스템을 만들고 싶었습니다.
단순한 데이터 분석이 아닌, 실제 웹에서 데이터를 수집하고 처리하는 ETL 흐름까지 구현하고자 했습니다.
2. 주제 선정 이유
이 주제를 선택한 이유는 다음과 같습니다.
- 복잡한 웹사이트에서 크롤링 실전 경험을 쌓고 싶었습니다.
- 점차 병렬 처리, 성능 개선까지 연결해 크롤링 성능 향상 과정을 경험하고 싶었습니다.
- 수집한 텍스트 데이터를 기반으로 ML / LLM 기반 분석을 해보고 싶었습니다.
- 무엇보다도, Spark를 활용해 대용량 텍스트 데이터를 처리할 수 있어야 했습니다.
3. 데이터 수집 목표
- 준실시간성을 고려한 ETL 파이프라인 구성
- 높은 속도로 대량의 리뷰 수집 실현
- Spark 기준에서 의미 있는 규모로 처리할 수 있는 수만~수십만 건 수준의 리뷰 데이터 확보
4. 수집 대상
- 네이버 쇼핑 상품 리뷰
- 쿠팡 상품 리뷰
5. 수집 방법별 시도
1. 네이버 검색 API 활용
- 상품명으로 검색하고, 검색 결과에서 상품 링크를 얻어 상세 페이지 접근
- 공식 API 링크: Naver Shopping API
- 하루 25,000건 제한이 존재하지만, 계정을 나눠 쓰면 대용량 수집도 가능할 것으로 예상됨
2. Playwright
- 최근 많이 쓰이는 브라우저 자동화 도구로, Selenium보다 빠르고 안정적이라는 평이 많다
- 실제 테스트해보니 네이버 쇼핑에서 접근 시 초반부터 바로 차단
- 아무것도 하지 못한 채, 첫 화면 진입도 실패하는 경우가 대부분
- 결론: 사용 불가
3. Selenium
- 오래된 도구지만 레퍼런스가 많고 우회 방법이 다양함
- 기본 접근은 가능했으나, 몇 번만 시도하면 차단됨
- 다양한 우회 방법을 시도해봤다:
방법시도 | 결과 |
undetected_chromedriver | 실제 사용자처럼 보이게 해주는 도구. 초반엔 효과 있음 |
fake_useragent | 랜덤 UA로 탐지 우회 시도. 큰 효과 없음 |
selenium_stealth | 오래된 라이브러리로 현재 네이버에선 바로 차단됨 |
VPN | IP 바꾸면 접근 가능할 줄 알았지만, VPN 자체를 탐지해서 바로 차단됨 |
기타 | 시크릿 모드, 랜덤 sleep, 마우스 스크롤 등 모두 효과 미미 |
- 결론: 4~5회 시도만으로도 캡챠 발생 또는 차단 → 실사용 불가
4. 네이버 검색 API + Selenium 조합
- 검색 API → 링크 추출 → Selenium으로 상세 페이지 접근 → 리뷰 수집
- 구조적으로는 괜찮았지만, 결국 Selenium만 사용했을 때와 동일하게 몇 번 시도 후 차단
6. 결론 및 후기
네이버 쇼핑은 리뷰 데이터를 수집하기에는 보안이 매우 강력했습니다.
Playwright, Selenium, API까지 모두 시도해봤지만, 지속적으로 안정적인 크롤링은 불가능하다고 판단했습니다.
다음 단계: 쿠팡 리뷰 크롤링으로 전환
현재는 쿠팡 리뷰 크롤링으로 방향을 전환한 상태입니다.
여기서도 문제가 발생한다면, 오픈 데이터셋 또는 리뷰 데이터가 공개된 커머스 플랫폼을 기준으로 주제를 바꿀 계획입니다.
'Project' 카테고리의 다른 글
[Project] DE Toy Project - 팀 프로젝트 회고 및 고도화 계획 (0) | 2025.07.03 |
---|---|
[Project] 실시간 쿠팡 리뷰 분석 with Hybrid Cloud (클라우드 아키텍쳐 솔루션 교육과정) (0) | 2025.07.01 |
[Project] DE Toy Project - 데이터 분석(분석 모델 테스트) (2) | 2025.06.25 |
[Project] DE Toy Project - 데이터 수집(쿠팡 크롤링과 병렬 처리) 3 (1) | 2025.06.24 |
[Project] DE Toy Project - 데이터 수집(쿠팡 상품 리뷰 크롤링) 2 (2) | 2025.06.05 |