Abstract
There are many reasons that fail to get appropriate information in information retrieval. Allomorph is one of the reasons for search failure due to keyword mismatch. This research proposes a method to construct alternative word candidates automatically in order to minimize search failure due to keyword mismatch. Assuming that two words have similar meaning if they have similar co-occurrence words, the proposed method uses the concept of concentration, association word set, cosine similarity between association word sets and a filtering technique using confidence. Performance of the proposed method is evaluated using a manually extracted alternative list. Evaluation results show that the proposed method outperforms the context window overlapping in precision and recall.
정보 검색에서 원하는 정보를 얻지 못하는 원인은 다양하다. 그 중에서도 표기의 다양성은 검색 시 불일치로 인한 정보 누락을 발생시키는 원인이 된다. 본 논문은 이러한 불일치에 의한 정보 누락을 최소화하기 위하여 검색 대체어 후보를 자동 생성하는 방법을 제안한다. 본 연구에서 제안하는 대체어 후보 자동 생성 방법은 문장 내에서 함께 쓰이는 단어들이 비슷한 두 단어는 서로 비슷한 의미를 지닐 것이다라는 직관적 가설을 전제로 한다. 이와 같은 가설을 기반으로 하여 본 연구에서는 분류별 집중도, 신뢰도를 이용한 연관단어 뭉치, 연관단어 뭉치 간 코사인 유사도 및 신뢰도를 이용한 필터링 기법 등을 이용한 대체어 후보 자동 생성 방법을 제안한다. 본 연구에서 제안한 대체어 후보 자동 생성 방법의 성능은 대체어 유형별로 작성된 평가지표를 이용하여 정확도 및 재현율을 측정함으로써 평가되었으며, 제안 방법이 context window overlapping을 이용한 대체어 추출 방법보다 더 우수한 것으로 나타났다.