Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

How to use Data Scraping (FISH-14) #22

Open
sjz1 opened this issue Jan 20, 2023 · 0 comments
Open

How to use Data Scraping (FISH-14) #22

sjz1 opened this issue Jan 20, 2023 · 0 comments
Labels
documentation Improvements or additions to documentation

Comments

@sjz1
Copy link
Contributor

sjz1 commented Jan 20, 2023

How To prepare Sashimi Data

window에서 가상환경 만들기


venv를 이용하여 가상환경을 만들 것이므로 venv 실행


python3 -m venv /path/to/new/virtual/environment

가상환경 이름을 지정해주기 (scraping)


python -m venv scraping

가상환경 실행을 위해 Scripts에 접근


cd scraping\Scripts

가상환경을 실행시킴

activate

가상환경에 라이브러리 설치를 하기위해
Scripts 에 requirements.txt를 복붙하고 아래의 코드를 실행

pip install - r requirements.txt

Before Running Data_Scraping.py


1. 먼저 본인의 크롬 브라우저의 버전을 확인한다


크롬창 우측 상단 더보기 -> 도움말 -> Chrome 정보
본인 :버전 108.0.5359.126(공식 빌드) (64비트)

2. 본인의 버전에 맞는 chromeDriver를 설치


https://chromedriver.chromium.org/downloads 에 들어가서
자신에게 맞는 OS를 선택 (맨뒤의 126 등은 무시 가능) 
ex) 본인 :버전 108.0.5359.126 -> 버전 108.0.5359

3. 본인의 Chromedriver를 저장해주자


압축을 풀고 Sashimi안에 있는 chromedriver.exe를 덮어쓰기 해준다
(main과 같은 경로에 있어야 한다)

4. Data_Scraping.py의 세팅부분을 건드려 주자


4-1. User_agent : 다음링크에 들어가서 User_agent확인

https://www.whatismybrowser.com/detect/what-is-my-user-agent/

User_agent : 일종의 '인증키'라 생각 
= 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36' 

4-2. 나머지 부분을 세팅해주자

search_url : 구글이미지 url (고정추천)

(예시) "https://www.google.co.kr/imghp?hl=ko&tab=ri&ogbl"

search_keywords : 검색할 키워드

(예시) ["광어회", "방어회" ,"참치회"]

max_img_num : 최대 다운 이미지 개수

(예시) 1500

Max_scroll_count : 최대 스크롤 수 (1 스크롤 => 약 50장)

(예시) 30

save_path : 결과물 저장 경로

(예시) "C:\Users\tmdwh\Desktop\Sashimi\scraping\output"

DELAY : 각 행동 당 대기시간

(예시) 1.8

(빠른버전) 1

SCROLL_PAUSE_TIME : 한 스크롤 당 대기시간

(예시) 2

(빠른버전) 1.5

+) Max_scroll_count는 1번에 약 50장이지만 중간에 다운로드가 되지 않아

패스되는 이미지들 개수도 고려해야 합니다

+) DELAY, SCROLL_PAUSE_TIME은 만약 너무 빠르다면 작업이 도중에 멈출 수 있습니다

본인의 인터넷 환경을 고려해야 합니다


5. 다음과 같은 세팅을 마친 후


Data_Scraping.py를 실행 시켜준다

6. out폴더를 확인한다


size_csv : 각 크롤링된 파일에 대한 크기 정보를 담은 csv

keyword 파일 : 각 키워드에 따른 이미지들 모음
@sjz1 sjz1 added the documentation Improvements or additions to documentation label Jan 20, 2023
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
documentation Improvements or additions to documentation
Projects
None yet
Development

No branches or pull requests

1 participant