[Project] DE Toy Project - 데이터 수집(네이버 쇼핑 리뷰 크롤링 삽질하기) 1

1. 프로젝트 주제

이번 프로젝트의 목표는 사용자가 검색한 상품에 대한 준 실시간 리뷰 요약 및 감정 분석 시스템을 만들고 싶었습니다.
단순한 데이터 분석이 아닌, 실제 웹에서 데이터를 수집하고 처리하는 ETL 흐름까지 구현하고자 했습니다.

 

 

2. 주제 선정 이유

이 주제를 선택한 이유는 다음과 같습니다.

  • 복잡한 웹사이트에서 크롤링 실전 경험을 쌓고 싶었습니다.
  • 점차 병렬 처리, 성능 개선까지 연결해 크롤링 성능 향상 과정을 경험하고 싶었습니다.
  • 수집한 텍스트 데이터를 기반으로 ML / LLM 기반 분석을 해보고 싶었습니다.
  • 무엇보다도, Spark를 활용해 대용량 텍스트 데이터를 처리할 수 있어야 했습니다.

 

 

3. 데이터 수집 목표

  • 준실시간성을 고려한 ETL 파이프라인 구성
  • 높은 속도로 대량의 리뷰 수집 실현
  • Spark 기준에서 의미 있는 규모로 처리할 수 있는 수만~수십만 건 수준의 리뷰 데이터 확보

 

 

4. 수집 대상

  • 네이버 쇼핑 상품 리뷰
  • 쿠팡 상품 리뷰

 

 

5. 수집 방법별 시도

1. 네이버 검색 API 활용

  • 상품명으로 검색하고, 검색 결과에서 상품 링크를 얻어 상세 페이지 접근
  • 공식 API 링크: Naver Shopping API
  • 하루 25,000건 제한이 존재하지만, 계정을 나눠 쓰면 대용량 수집도 가능할 것으로 예상됨

2. Playwright

  • 최근 많이 쓰이는 브라우저 자동화 도구로, Selenium보다 빠르고 안정적이라는 평이 많다
  • 실제 테스트해보니 네이버 쇼핑에서 접근 시 초반부터 바로 차단
  • 아무것도 하지 못한 채, 첫 화면 진입도 실패하는 경우가 대부분
  • 결론: 사용 불가

3. Selenium

  • 오래된 도구지만 레퍼런스가 많고 우회 방법이 다양함
  • 기본 접근은 가능했으나, 몇 번만 시도하면 차단됨
  • 다양한 우회 방법을 시도해봤다:
방법시도 결과
undetected_chromedriver 실제 사용자처럼 보이게 해주는 도구. 초반엔 효과 있음
fake_useragent 랜덤 UA로 탐지 우회 시도. 큰 효과 없음
selenium_stealth 오래된 라이브러리로 현재 네이버에선 바로 차단됨
VPN IP 바꾸면 접근 가능할 줄 알았지만, VPN 자체를 탐지해서 바로 차단됨
기타 시크릿 모드, 랜덤 sleep, 마우스 스크롤 등 모두 효과 미미
  • 결론: 4~5회 시도만으로도 캡챠 발생 또는 차단 → 실사용 불가

4. 네이버 검색 API + Selenium 조합

  • 검색 API → 링크 추출 → Selenium으로 상세 페이지 접근 → 리뷰 수집
  • 구조적으로는 괜찮았지만, 결국 Selenium만 사용했을 때와 동일하게 몇 번 시도 후 차단

 

 

6. 결론 및 후기

네이버 쇼핑은 리뷰 데이터를 수집하기에는 보안이 매우 강력했습니다.
Playwright, Selenium, API까지 모두 시도해봤지만, 지속적으로 안정적인 크롤링은 불가능하다고 판단했습니다.

 

다음 단계: 쿠팡 리뷰 크롤링으로 전환

현재는 쿠팡 리뷰 크롤링으로 방향을 전환한 상태입니다.
여기서도 문제가 발생한다면, 오픈 데이터셋 또는 리뷰 데이터가 공개된 커머스 플랫폼을 기준으로 주제를 바꿀 계획입니다.