본문 바로가기
반응형

데이터셋2

[Python] 네이버 영화리뷰 학습 데이터 셋 만들기 2022.06.06 - [Studying/Python] - [Python] 웹 크롤링 데이터 클래스를 사용해 구조화해서 접근하기 위의 포스트에서 제작한 데이터 셋은 csv파일을 모두 조회하긴 하지만 학습에 바로 사용되기에는 부족한 점이 많다. 따라서 위 포스트의 클래스를 상속하여 네이버 영화 리뷰 데이터셋을 학습용으로 만드는 클래스를 구현해보려고 한다. 클래스의 구현은 다음과 같다. - 이전 포스트의 클래스를 상속받아야 함 - 생성자의 인자는 부모의 인자와 integer타입의 score_threshold를 받는다. - 부모의 indexing을 재정의 한다.(overriding) 인덱싱 결과 값은 (감상평, 긍부정)으로 (str, bool) 형태의 튜플이다. 점수가 score_threshold 이상이면 긍.. 2022. 6. 6.
[Python] 웹 크롤링 해보기( 네이버 영화리뷰 크롤링) 이제 슬슬 기본적인 문법을 익혔으니 AI 관련 교육 내용으로 넘어가 보려고 한다. 우선 기계학습에 가장 먼저 준비해야 할 것은 데이터다! 그 방대한 데이터를 우리가 직접 만들기는 어려우므로 현재 존재하는 데이터를 가지고 오려고 한다. 우선 검색해본 결과 내부 연구나 교육적 목적으로 이미 가공된 인터넷의 글들을 수집하는 것은 공정이용으로 저작권법에 어긋나지 않는다고 한다. 따라서 네이버 영화 리뷰를 크롤링하여 나만의 긍부정 문장 데이터 셋을 만들어 보겠다. 우선 웹크롤링에 필요한 모듈을 가져와 보겠다. import time import requests from bs4 import BeautifulSoup import csv 우선 각 모듈을 간략하게 설명하면 time 함수는 시간관련 컨트롤 requests는.. 2022. 6. 6.
반응형