딥러닝을 이용해서 그다지 의미있는 성과를 보지 못하여 다른 방식을 시도하기로 하였다.

전반적인 개요는 아래처럼 기존의 임베딩 방식과 해시태크의 키워드를 활용하는 방식이다.

Untitled

  1. Vector based

    벡터 기반은 보유하고 있는 데이터와 새로들어온 데이터간의 유사도를 측정하는 과정이다. 이 과정에서 새로 들어온 링크는 키워드를 추출할 수 있는 알고리즘이 필요하다.

    → 이 글에서 전반적으로 다루게될 내용

  2. Keyword based

    Collaborative filtering과 유사한 개념이다. 다른 사람들이 설정한 키워드를 바탕으로 많이 겹치는 링크들을 찾고 그 링크의 카테고리를 후보로 선택하는 것이다.

  3. 후보 랭킹 종합

    현재 생각으로는 위의 두 과정에서 겹치는 내용 혹은 각 계수를 곱한 값을 더하여 점수를 기반한 랭킹을 만들게 된다.

  4. 포맷 고려한 필터링 및 토큰화

    포맷의 고려는 동영상 링크(예: youtube)는 내부에 존재하는 텍스트를 통해서 키워드를 추출하는 것이 어렵다. 또한 링크의 포맷에 따라 카테고리에 미치는 영향이 다소 크다.

    → 알고리즘 맨 앞단에서 진행할지 마지막에 진행할 지는 미지수

  5. 카테고리 제목 추출

    후보 카테고리에서 토큰화를 진행하여 적절한 단어를 추천한다.

키워드 추출

다음과 같은 진행방향으로 흘러가길 기대한다.

Untitled

  1. 링크 문서에서 HTML 텍스트 데이터 추출
  2. 토큰화 및 기존에 가지고 있던 키워드와 겹치는 토큰 추출
  3. TFIDF를 통한 스코어링 하여 키워드 추출

문제상황