Elasticsearch User 초성 검색(2022.01.26~2022.01.29) | Notion

<aside> 💡 기존의 User 문서에 대한 검색은 prefix를 통해서 글자 단위로 검색이 가능하였다. Elastic Cloud에서 커스텀 플러그인을 사용할 수 있게 되면서 해당 기능을 추가하려고 한다.

</aside>

기존 상황

초성에 대응하는 검색어 추천이 작동하지 않음

초성에 대응하는 검색어 추천이 작동하지 않음

위와 같이 초성에 대해서 검색어 추천 및 검색 결과를 가져오는 것이 불가능하였다.

prefix 위주의 검색이 구현되었다.

prefix 위주의 검색이 구현되었다.

위와 같이 글자 단위의 prefix 검색어만 구현이 되어있는 상태!

분석기 설정

분석기의 경우는 jaso analyzer를 주로 사용할 것이다. 분석기는 search와 indexing 두 부분으로 나누어 정의를 할 것이다.

Tokenizer

Index Tokenizer
- type: jaso_analyzer
- mistype(영→한, 한→영): False
  
  영어에 대한 오타 방지는 검색환경에서 일어나는 과정
- chosung: True
  
  검색 환경에서 초성만을 검색할 수 있기 때문에
Search Tokenizer
- type: jaso_analyzer
- mistype(영→한, 한→영): True
  
  영어로 검색하였을 상황을 대비해서 검색 경험 향상
- chosung: False
  
  굳이 검색을 하는 상황에서 검색어에 대해서 초성을 빼는 것은...

Token Filter

토큰 필터는 기본적인 필터를 그대로 적용, 단 ngram과 edge-ngram 사이에서 구분을 지을 필요는 있을 것으로 보인다.

검색 환경에서 이름을 중간 부터 검색할 수 있다.

검색 과정에서는 분할할 필요가 없지만 사전에 색인과정을 거칠때는 ngram으로 필터를 걸어 놓는 것이 좋을듯...
jaso tokenizer를 이용해서는 white space에 대한 분할이 되지 않는다.

짧은 이름에 대한 검색이 적합할 것으로 보인다.

결론 적으로 다음 두 토큰 필터를 사용하자

Index Tokenfilter
- type: ngram
Search Tokenfilter
- type: edge-ngram

DSL 쿼리 설정