크롤링을 이용한 키워드 기반 협업 필터링(2021.01.07~) | Notion

http://docsdrive.com/pdfs/medwelljournals/jeasci/2018/1506-1514.pdf

Abstraction

크롤링을 기반으로 키워드 후보 데이터 추출 → 명사를 기반으로 추출
편집 거리를 바탕으로 추출한 키워드 군집화
추출된 키워드를 바탕으로 벡터화 및 CF 알고리즘 적용

Materials and Methods

Pipeline

크롤링
- 전처리
- HDFS 저장
단어 군집화
- 명사 추출
- black list filtering
분석 및 추천
- CF 알고리즘 적용
- cosine similarity 사용

Word clustering(Levenshtein distance)

Google Translation API를 거쳐서 명사 추출
편집 거리를 활용
performance

Colaborative filtering

Conclusion

Performance

contents-based기반의 CF이다 보니 사용자의 패턴을 적용❌

Availability(적용 가능성)

모든 링크 URL에서 메타 데이터 추출 → 오픈 그래프를 적극 활용