링크를 100일동안 약 10만개 정도 덤필을 하여 지수곡선 형태의 링크 상승률을 만들기
python:3.7
크롤링 툴: scrapy
사용이유
많이 사용해보지 않은 크롤링 툴(프레임워크)
병렬처리를 통한 빠른 접근 가능
[x] 공공 데이터 저장소에서 대한민국 행정구역에 리스트업
[x] 망고플레이트에 저장된 맛집 데이터 크롤링
[x] 위치, 가게 이름을 기반으로 링크 수집
네이버 블로그와 다음 블로그에서 무작위로 상위 5개의 링크를 크롤링한다.
→ javascript로 동적으로 rendering이 되기 때문에 selenium이나 splash와 같이 brower를 열어서 실행할 하도록 해야함
[x] 구글 캡차 문제(해결하지 못함)
[x] dynamic website crawling
scrapy-splash를 활용해서 brower를 열고 대기 시간을 가진후 html데이터를 가져온다.
→ container를 다중으로 만들어서 실행읋 할 때, 대기 시간을 너무 짧게 할경우 700개 정도 크롤링을 하고 container가 다운되는 상황이 발생
→ 오래 걸리더라도 대기시간에 여유를 가지로 실행 권장