[Project] DE Toy Project - 데이터 수집(네이버 쇼핑 리뷰 크롤링 삽질하기) 1

1. 프로젝트 주제

이번 프로젝트의 목표는 사용자가 검색한 상품에 대한 준 실시간 리뷰 요약 및 감정 분석 시스템을 만들고 싶었습니다.
단순한 데이터 분석이 아닌, 실제 웹에서 데이터를 수집하고 처리하는 ETL 흐름까지 구현하고자 했습니다.

이 주제를 선택한 이유는 다음과 같습니다.

방법시도	결과
undetected_chromedriver	실제 사용자처럼 보이게 해주는 도구. 초반엔 효과 있음
fake_useragent	랜덤 UA로 탐지 우회 시도. 큰 효과 없음
selenium_stealth	오래된 라이브러리로 현재 네이버에선 바로 차단됨
VPN	IP 바꾸면 접근 가능할 줄 알았지만, VPN 자체를 탐지해서 바로 차단됨
기타	시크릿 모드, 랜덤 sleep, 마우스 스크롤 등 모두 효과 미미

네이버 쇼핑은 리뷰 데이터를 수집하기에는 보안이 매우 강력했습니다.
Playwright, Selenium, API까지 모두 시도해봤지만, 지속적으로 안정적인 크롤링은 불가능하다고 판단했습니다.

현재는 쿠팡 리뷰 크롤링으로 방향을 전환한 상태입니다.
여기서도 문제가 발생한다면, 오픈 데이터셋 또는 리뷰 데이터가 공개된 커머스 플랫폼을 기준으로 주제를 바꿀 계획입니다.

[Project] DE Toy Project - 팀 프로젝트 회고 및 고도화 계획 (0)	2025.07.03
[Project] 실시간 쿠팡 리뷰 분석 with Hybrid Cloud (클라우드 아키텍쳐 솔루션 교육과정) (0)	2025.07.01
[Project] DE Toy Project - 데이터 분석(분석 모델 테스트) (2)	2025.06.25
[Project] DE Toy Project - 데이터 수집(쿠팡 크롤링과 병렬 처리) 3 (1)	2025.06.24
[Project] DE Toy Project - 데이터 수집(쿠팡 상품 리뷰 크롤링) 2 (4)	2025.06.05