A comparative study of Entity-Grid and LSA models on Korean sentence ordering

한국어 텍스트 문장정렬을 위한 개체격자 접근법과 LSA 기반 접근법의 활용연구

  • Kim, Youngsam (Cognitive Science Program, Seoul National University) ;
  • Kim, Hong-Gee (Biomedical Knowledge Engineering Laboratory, Seoul National University) ;
  • Shin, Hyopil (Department of Linguistics, Seoul National University)
  • 김영삼 (서울대학교 인지과학 협동과정) ;
  • 김홍기 (서울대학교 치과대학) ;
  • 신효필 (서울대학교 언어학과)
  • Received : 2013.04.11
  • Accepted : 2013.10.30
  • Published : 2013.12.30

Abstract

For the task of sentence ordering, this paper attempts to utilize the Entity-Grid model, a type of entity-based modeling approach, as well as Latent Semantic analysis, which is based on vector space modeling, The task is well known as one of the fundamental tools used to measure text coherence and to enhance text generation processes. For the implementation of the Entity-Grid model, we attempt to use the syntactic roles of the nouns in the Korean text for the ordering task, and measure its impact on the result, since its contribution has been discussed in previous research. Contrary to the case of German, it shows a positive result. In order to obtain the information on the syntactic roles, we use a strategy of using Korean case-markers for the nouns. As a result, it is revealed that the cues can be helpful to measure text coherence. In addition, we compare the results with the ones of the LSA-based model, discussing the advantages and disadvantages of the models, and options for future studies.

본 논문은 텍스트의 응집도 측정과 텍스트 자동생성 시스템을 위한 기초기술 중 하나인 문장정렬 과제에 대한 연구로, 개체기반적(entity-based) 접근의 한 유형인 개체격자 모형(Entity-Grid model)과 벡터공간 모형에 기반한 LSA(Latent Semantic Analysis)를 모두 시도하고 결과를 서로 비교하였다. 개체격자 모형에 대한 기존 연구들에서 논의된 명사들의 통사역(syntactic role) 정보가 한국어 텍스트 정렬과제에 미치는 영향을 실험하고자 하였으며, 기존 독일어권 응용연구 결과와는 달리 긍정적인 결과를 얻었다. 이 과정에서 한국어의 격조사를 활용하는 전략을 취했으며, 이는 한국어의 격표지 정보가 한국어 텍스트의 응집성을 측정하는 데에 유용할 수 있다는 점을 보인 것이다. 그리고 개체격자 모형을 통한 결과를 LSA 기반 모형결과와 비교하여 양 모형의 장단점과 향후 개선점을 아울러 논의하였다.

Keywords