http://docsdrive.com/pdfs/medwelljournals/jeasci/2018/1506-1514.pdf
Abstraction
- 크롤링을 기반으로 키워드 후보 데이터 추출 → 명사를 기반으로 추출
- 편집 거리를 바탕으로 추출한 키워드 군집화
- 추출된 키워드를 바탕으로 벡터화 및 CF 알고리즘 적용
Materials and Methods
Pipeline
- 크롤링
- 단어 군집화
- 명사 추출
- black list filtering
- 분석 및 추천
- CF 알고리즘 적용
- cosine similarity 사용
Word clustering(Levenshtein distance)
- Google Translation API를 거쳐서 명사 추출
- 편집 거리를 활용
- performance
Colaborative filtering
Conclusion
Performance
- contents-based기반의 CF이다 보니 사용자의 패턴을 적용❌
Availability(적용 가능성)
- 모든 링크 URL에서 메타 데이터 추출 → 오픈 그래프를 적극 활용