<aside> 💡 기존의 크롤링을 통해서 오픈그래프에서 가져오던 데이터를 바탕으로 간단하게 DB에서 검색을 통해서 자동화 추천 알고리즘을 구현해 보았다.
</aside>
크롤링
기존의 피큐레잇에서 사용하는 저장 방식을 그대로 사용하여 title, description을 가져왔다. 코드를 그대로 차용하여 크롤링하여 데이터를 가져오도록 하자
키워드 추출
키워드 추출은 TFIDF를 기반으로 기존의 DB에 쌓아두었던 데이터를 이용하여 순위가 높은 명사를 기준으로 키워드 추출을 한다.
링크의 오픈그래프를 통해 추출한 키워드 데이터
검색을 통한 링크데이터 추출
추출된 키워드를 역인덱싱 되어있는 DB 테이블에 검색을 통해서 해당 링크 아이디를 가져오고, 추출된 키워드에 대해서 중복 횟수가 많은 순서대로 가장 유사한 링크로 판단한다.
카테고리 추출
추출한 유사 링크가 속해있는 카테고리의 아이디를 가져온다
→ 이부분에서는 랭킹 이슈가 존재하며, 가져온 카테고리에 대해서 다른 사용자가 작성한 카테고리를 그대로 제고할 것인지, 다시 카테고리 아이디에 대한 키워드를 가져올 것인지 고려해보자.
위는 사용자가 작성한 카테고리를 그대로 보여주었다.