TFIDF를 이용한 키워드 추출(2021.12.28)

어떤 콘텐츠에서 어떤 키워드가 추출되었는지 모니터링하기가 쉽니 않다.
TFIDF를 이용하는데에 Pik, Category, Link를 같은 방식으로 계산하고 있다.

→ 길이를 고려한다든지(BM25)에 관련된 고려사항이 존재하지 않는다.

속도: line_profiler를 통해서 속도 측정 및 병렬, 분산 작업 활성화

pandas에서 병렬성을 제공하는 Dask와 Swifter를 사용하여 병렬화된 작업을 적극 활용할 수 있다. Dask의 경우 성능면에서는 우수하지만 코어의 수를 정하고 몇가지 발생하는 옵션의 수로 인해서 간단하게 한줄로 pandas를 사용하는 것처럼 사용할 수 있는 Swifter를 사용하였다.
메모리: memory_profiler를 베이스로 메모리 사용량 측정

피큐레잇의 프로젝트에서 배치작업에서 속도가 매우 중요한 부분을 차지하지는 않는다. 따라서 되도록 메모리에 집중하되 병렬성을 최대한 활용하여 개선을 하도록 해보자
- 기존의 방식
  
  일단 loop와 .iloc와 같은 방식은 Series 객체의 빈번한 생성과, 역참조에 의해서 속도측면에서 매우매우 좋지 않은 선택이다. apply를 사용하여 이러한 속도저하를 해결해보자
- pandas raw=True를 사용하여 Series 객체의 생성을 최소한으로 하여 메모리를 줄이자.
  
  apply와 옵션을 사용하여 loop를 줄이고 메모리를 아껴보자