반응형 웹크롤링2 [Python] 웹 크롤링 데이터 클래스를 사용해 구조화해서 접근하기 2022.06.06 - [Studying/Python] - [Python] 웹 크롤링 해보기( 네이버 영화리뷰 크롤링) [Python] 웹 크롤링 해보기( 네이버 영화리뷰 크롤링) 이제 슬슬 기본적인 문법을 익혔으니 AI 관련 교육 내용으로 넘어가 보려고 한다. 우선 기계학습에 가장 먼저 준비해야 할 것은 데이터다! 그 방대한 데이터를 우리가 직접 만들기는 어려우므로 gm-note.tistory.com 이번 포스트에서는 위의 이전 포스트에서 크롤링한 데이터를 구조화 해보려고 한다. csv파일은 이전 포스트에서 만들었으므로 그 데이터를 써보겠다. 구현할 클래스는 다음과 같다. - 생성자로 string타입의 파일 이름을 받아야 한다. - 대괄호로 배열처럼 indexing이 가능해야 한다. ( 예를 들어 da.. 2022. 6. 6. [Python] 웹 크롤링 해보기( 네이버 영화리뷰 크롤링) 이제 슬슬 기본적인 문법을 익혔으니 AI 관련 교육 내용으로 넘어가 보려고 한다. 우선 기계학습에 가장 먼저 준비해야 할 것은 데이터다! 그 방대한 데이터를 우리가 직접 만들기는 어려우므로 현재 존재하는 데이터를 가지고 오려고 한다. 우선 검색해본 결과 내부 연구나 교육적 목적으로 이미 가공된 인터넷의 글들을 수집하는 것은 공정이용으로 저작권법에 어긋나지 않는다고 한다. 따라서 네이버 영화 리뷰를 크롤링하여 나만의 긍부정 문장 데이터 셋을 만들어 보겠다. 우선 웹크롤링에 필요한 모듈을 가져와 보겠다. import time import requests from bs4 import BeautifulSoup import csv 우선 각 모듈을 간략하게 설명하면 time 함수는 시간관련 컨트롤 requests는.. 2022. 6. 6. 이전 1 다음 반응형