How to use Data Scraping (FISH-14) #22

sjz1 · 2023-01-20T20:19:37Z

How To prepare Sashimi Data

window에서 가상환경 만들기

venv를 이용하여 가상환경을 만들 것이므로 venv 실행

python3 -m venv /path/to/new/virtual/environment

가상환경 이름을 지정해주기 (scraping)

python -m venv scraping

가상환경 실행을 위해 Scripts에 접근

cd scraping\Scripts

가상환경을 실행시킴

activate

가상환경에 라이브러리 설치를 하기위해
Scripts 에 requirements.txt를 복붙하고 아래의 코드를 실행

pip install - r requirements.txt

Before Running Data_Scraping.py

1. 먼저 본인의 크롬 브라우저의 버전을 확인한다

크롬창 우측 상단 더보기 -> 도움말 -> Chrome 정보
본인 :버전 108.0.5359.126(공식 빌드) (64비트)

2. 본인의 버전에 맞는 chromeDriver를 설치

https://chromedriver.chromium.org/downloads 에 들어가서
자신에게 맞는 OS를 선택 (맨뒤의 126 등은 무시 가능) 
ex) 본인 :버전 108.0.5359.126 -> 버전 108.0.5359

3. 본인의 Chromedriver를 저장해주자

압축을 풀고 Sashimi안에 있는 chromedriver.exe를 덮어쓰기 해준다
(main과 같은 경로에 있어야 한다)

4. Data_Scraping.py의 세팅부분을 건드려 주자

4-1. User_agent : 다음링크에 들어가서 User_agent확인

https://www.whatismybrowser.com/detect/what-is-my-user-agent/

User_agent : 일종의 '인증키'라 생각 
= 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36'

4-2. 나머지 부분을 세팅해주자

search_url : 구글이미지 url (고정추천)

(예시) "https://www.google.co.kr/imghp?hl=ko&tab=ri&ogbl"

search_keywords : 검색할 키워드

(예시) ["광어회", "방어회" ,"참치회"]

max_img_num : 최대 다운 이미지 개수

(예시) 1500

Max_scroll_count : 최대 스크롤 수 (1 스크롤 => 약 50장)

(예시) 30

save_path : 결과물 저장 경로

(예시) "C:\Users\tmdwh\Desktop\Sashimi\scraping\output"

DELAY : 각 행동 당 대기시간

(예시) 1.8

(빠른버전) 1

SCROLL_PAUSE_TIME : 한 스크롤 당 대기시간

(예시) 2

(빠른버전) 1.5

+) Max_scroll_count는 1번에 약 50장이지만 중간에 다운로드가 되지 않아

패스되는 이미지들 개수도 고려해야 합니다

+) DELAY, SCROLL_PAUSE_TIME은 만약 너무 빠르다면 작업이 도중에 멈출 수 있습니다

본인의 인터넷 환경을 고려해야 합니다

5. 다음과 같은 세팅을 마친 후

Data_Scraping.py를 실행 시켜준다

6. out폴더를 확인한다

size_csv : 각 크롤링된 파일에 대한 크기 정보를 담은 csv

keyword 파일 : 각 키워드에 따른 이미지들 모음

The text was updated successfully, but these errors were encountered:

sjz1 added the documentation Improvements or additions to documentation label Jan 20, 2023

sjz1 mentioned this issue Jan 21, 2023

[FISH-14] data-crawling #20

Merged

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

How to use Data Scraping (FISH-14) #22

How to use Data Scraping (FISH-14) #22

sjz1 commented Jan 20, 2023 •

edited

Loading

How to use Data Scraping (FISH-14) #22

How to use Data Scraping (FISH-14) #22

Comments

sjz1 commented Jan 20, 2023 • edited Loading

How To prepare Sashimi Data

window에서 가상환경 만들기

venv를 이용하여 가상환경을 만들 것이므로 venv 실행

가상환경 이름을 지정해주기 (scraping)

가상환경 실행을 위해 Scripts에 접근

가상환경을 실행시킴

가상환경에 라이브러리 설치를 하기위해 Scripts 에 requirements.txt를 복붙하고 아래의 코드를 실행

Before Running Data_Scraping.py

1. 먼저 본인의 크롬 브라우저의 버전을 확인한다

2. 본인의 버전에 맞는 chromeDriver를 설치

3. 본인의 Chromedriver를 저장해주자

4. Data_Scraping.py의 세팅부분을 건드려 주자

4-1. User_agent : 다음링크에 들어가서 User_agent확인

4-2. 나머지 부분을 세팅해주자

5. 다음과 같은 세팅을 마친 후

6. out폴더를 확인한다

sjz1 commented Jan 20, 2023 •

edited

Loading

가상환경에 라이브러리 설치를 하기위해
Scripts 에 requirements.txt를 복붙하고 아래의 코드를 실행