지난 포스팅에서 이어집니다. [Project] DE Toy Project - 데이터 수집(쿠팡 크롤링과 병렬 처리) 3지난 포스팅에서 이어집니다. [Project] DE Toy Project - 데이터 수집(쿠팡 상품 리뷰 크롤링) 1지난 포스팅에서 이어집니다. [Project] DE Toy Project - 데이터 수집(네이버 쇼핑 리뷰 크롤링 삽질하기)1. 프tjlog-tistory.tistory.com 지난 포스팅에 이어 이번에는 크롤링한 데이터를 요약하고 감정 분석하는 모델을 찾고, 직접 테스트해본 결과를 공유합니다. 1. 목표1.1 프로젝트 전체 목표이번 프로젝트는 쿠팡 상품의 기본 정보 및 리뷰 데이터를 수집하여, 이후 텍스트 분석을 위한 데이터 파이프라인을 구축하는 과정을 정리한 기록입..
지난 포스팅에서 이어집니다. [Project] DE Toy Project - 데이터 수집(쿠팡 상품 리뷰 크롤링) 1지난 포스팅에서 이어집니다. [Project] DE Toy Project - 데이터 수집(네이버 쇼핑 리뷰 크롤링 삽질하기)1. 프로젝트 주제이번 프로젝트의 목표는 사용자가 검색한 상품에 대한 준 실시간 리뷰 요약tjlog-tistory.tistory.com 이번 포스팅에서는 쿠팡 크롤링과 병렬 처리를 구현한 내용과 소소한 팁을 작성했습니다. 1. 프로젝트 목표이번 프로젝트는 쿠팡 상품의 기본 정보 및 리뷰 데이터를 수집하여, 이후 텍스트 분석을 위한 데이터 파이프라인을 구축하는 과정을 정리한 기록입니다. 단순 크롤링이 아닌 병렬 처리, 데이터 저장, 후속 분석 작업까지 연결된 전체 흐름을..
지난 포스팅에서 이어집니다. [Project] DE Toy Project - 데이터 수집(네이버 쇼핑 리뷰 크롤링 삽질하기)1. 프로젝트 주제이번 프로젝트의 목표는 사용자가 검색한 상품에 대한 준 실시간 리뷰 요약 및 감정 분석 시스템을 만드는 것이다.단순한 데이터 분석이 아닌, 실제 웹에서 데이터를 수집하고tjlog-tistory.tistory.com 이번 포스팅에서는 쿠팡 상품 리뷰를 크롤링하며 겪은 내용과 고민들을 작성했습니다. 1. 프로젝트 목표이번 프로젝트의 목표는 사용자가 검색한 상품에 대한 준 실시간 리뷰 요약 및 감정 분석 시스템을 만드는 것입니다.단순한 데이터 분석이 아닌, 실제 웹에서 데이터를 수집하고 처리하는 ETL 흐름까지 구현하고자 했습니다. 2. 데이터 수집 목표준실시간성을 고려..
1. 프로젝트 주제이번 프로젝트의 목표는 사용자가 검색한 상품에 대한 준 실시간 리뷰 요약 및 감정 분석 시스템을 만들고 싶었습니다.단순한 데이터 분석이 아닌, 실제 웹에서 데이터를 수집하고 처리하는 ETL 흐름까지 구현하고자 했습니다. 2. 주제 선정 이유이 주제를 선택한 이유는 다음과 같습니다.복잡한 웹사이트에서 크롤링 실전 경험을 쌓고 싶었습니다.점차 병렬 처리, 성능 개선까지 연결해 크롤링 성능 향상 과정을 경험하고 싶었습니다.수집한 텍스트 데이터를 기반으로 ML / LLM 기반 분석을 해보고 싶었습니다.무엇보다도, Spark를 활용해 대용량 텍스트 데이터를 처리할 수 있어야 했습니다. 3. 데이터 수집 목표준실시간성을 고려한 ETL 파이프라인 구성높은 속도로 대량의 리뷰 수집 실현Spark ..
1. 객체 지향 프로그래밍 (OOP) 1.1 클래스 (Class)Scala는 객체지향 프로그래밍을 지원하기 위해 클래스를 제공합니다. 타 언어와 비교했을 때 더 간소한 문법을 가지고 있습니다.기본적으로 Java와 같은 keyword를 사용하는 특징들이 있습니다.new를 이용한 생성extends를 이용한 상속Scala class Scala에서 클래스를 만드는 방법은 아주 간단합니다. 아래 Book 클래스에는 책 제목 title과 저자 author 가 멤버변수로 담겨져 있습니다.// 클래스 생성class Book(var title: String, var author: String)// 인스턴스 생성(클래스로부터 만들어진 각각의 객체)val myBook1 = new Book("My awesome book 1"..
1. Scala 소개2003년 스위스 로잔공대의 Martin Odersky가 개발한 강력한 타입(Storngly typed) 방식의 확장 가능한(Scalable) 프로그래밍 언어(Language)객체 지향형과 함수형 프로그래밍을 모두 지원스칼라 코드는 자바 바이트코드로 변환될 수 있음(JVM이 읽을 수 있는 자바가 컴파일된 결과인 .class 파일이 있으면 scala도 읽을 수 있음, 100% 호환은 아님)Scala는 대규모 데이터 분산 컴퓨팅 분야에 많이 사용됨 (데이터 엔지니어에게는 유요한 기술)대규모 데이터에 주로 쓰이는 만큼 대중적이고 인기가 많은 언어는 아님 2. 변수, 상수var변수 선언 (같은 타입에 한해 변경 가능)val상수 선언 (초기값 변경 불가) 변수와 상수의 이름 규칙 (Naming..