더미픽 만들기(2021.11.18~2021.11.24) | Notion

목적

링크를 100일동안 약 10만개 정도 덤필을 하여 지수곡선 형태의 링크 상승률을 만들기

스택

python:3.7
크롤링 툴: scrapy
사용이유

많이 사용해보지 않은 크롤링 툴(프레임워크)

병렬처리를 통한 빠른 접근 가능

크롤링 과정

[x] 공공 데이터 저장소에서 대한민국 행정구역에 리스트업
[x] 망고플레이트에 저장된 맛집 데이터 크롤링
- 282027만개의 가게
[x] 위치, 가게 이름을 기반으로 링크 수집

네이버 블로그와 다음 블로그에서 무작위로 상위 5개의 링크를 크롤링한다.

→ javascript로 동적으로 rendering이 되기 때문에 selenium이나 splash와 같이 brower를 열어서 실행할 하도록 해야함

발생 문제

[x] ~~구글 캡차 문제~~(해결하지 못함)
- 문제 상황
- 해결책
[x] dynamic website crawling

scrapy-splash를 활용해서 brower를 열고 대기 시간을 가진후 html데이터를 가져온다.

→ container를 다중으로 만들어서 실행읋 할 때, 대기 시간을 너무 짧게 할경우 700개 정도 크롤링을 하고 container가 다운되는 상황이 발생

→ 오래 걸리더라도 대기시간에 여유를 가지로 실행 권장