An Efficient Method for Korean Noun Extraction Using Noun Patterns

명사 출현 특성을 이용한 효율적인 한국어 명사 추출 방법

  • Published : 2003.02.01

Abstract

Morphological analysis is the most widely used method for extracting nouns from Korean texts. For every Eojeol, in order to extract nouns from it, a morphological analyzer performs frequent dictionary lookup and applies many morphonological rules, therefore it requires many operations. Moreover, a morphological analyzer generates all the possible morphological interpretations (sequences of morphemes) of a given Eojeol, which may by unnecessary from the noun extraction`s point of view. To reduce unnecessary computation of morphological analysis from the noun extraction`s point of view, this paper proposes a method for Korean noun extraction considering noun occurrence characteristics. Noun patterns denote conditions on which nouns are included in an Eojeol or not, which are positive cues or negative cues, respectively. When using the exclusive information as the negative cues, it is possible to reduce the search space of morphological analysis by ignoring Eojeols not including nouns. Post-noun syllable sequences(PNSS) as the positive cues can simply extract nouns by checking the part of the Eojeol preceding the PNSS and can guess unknown nouns. In addition, morphonological information is used instead of many morphonological rules in order to recover the lexical form from its altered surface form. Experimental results show that the proposed method can speed up without losing accuracy compared with other systems based on morphological analysis.

형태소 분석을 한 후 명사를 추출하는 방법은 모든 어절에 대해 빈번한 사전 참조와 음운 복원을 위한 규칙 적용을 수행하므로 많은 연산을 필요로 하고, 중의성이 있는 어절에 대해 모든 가능한 분석결과를 생성하므로 명사 추출의 관점에서는 비효율적이다. 본 논문에서는 명사 추출의 관점에서 형태소 분석시 불필요한 연산을 줄이기 위해 명사 출현 특성을 고려하는 명사 추출 방법을 제안한다. 명사 출현 특성은 명사의 존재에 대한 긍정적 또는 부정적인 단서를 표현하는 한국어의 특성으로서, 배제 정보와 명사 접미 음절열이 있다. 배제 정보는 명사가 잃는 어절을 미리 배제하여 형태소 분석에 요구되는 탐색 공간을 줄이고. 명사 접미 음절열은 바로 알에 있는 병사를 검사함으로써 단순한 방법으로 명사를 추출하거나 미등록어를 인식하는 데에 사용한다. 또한 본 논문에서는 형태소 분석시 복잡한 음운 현상을 처리하기 위해 많은 음운 규칙을 적용하는 대신 음운 복인 정보를 사용하여 음운 현상을 처리한다. 실험 결과에 의하면 덕 방법은 기존의 형태소 분석 방법에 의한 명사 추출에 비해 정확도는 떨어지지 않으면서 수행 속도 면에서 매우 효율적임을 알 수 있다.

Keywords

References

  1. 이재성, 박재득, 차건희, 박세영, '형태소분석기 및 품사 태거 평가대회(MATEC99) 개요', 제1회 형태소 분석기 및 품사태거 평가 워크숍 논문집, pp.13-22, 1999
  2. 김남철, 서영훈, '형태소 분석기 CBKMA와 색인어 추출기 CBKMA/IX', 제1회 형태소 분석기 및 품사태거 평가 워크숍 논문집, pp.55-59, 1999
  3. 이중영, 신병훈, 이공주, 김지은, 안상규, 'COM 기반의 다목적 형태소 분석기를 이용한 명사 추출기', 제1회 형태소 분석기 및 품사태거 평가 워크숍 논문집, pp.167-172
  4. 안동언, '좌우접속정보를 이용한 명사추출기', 제1회 형태소 분석기 및 품사태거 평가 워크숍 논문집, pp.173-178, 1999
  5. 심준혁, 김준석, 이근배, '통계와 규칙을 이용한 강인한 품사태거', 제1회 형태소 분석기 및 품사태거 평가 워크숍 논문집, pp.60-75, 1999
  6. 권오욱, 정유진, 김미영, 류동원, 이문기, 이종혁, '음절단위 CYK 알고리즘에 기반한 형태소 분석기 및 품사태거', 제1회 형태소 분석기 및 품사태거 평가 워크숍 논문집, pp.76-88, 1999
  7. 이운재, 김선배, 김길연, 최기선, '모듈화된 형태소 분석기의 구현', 제1회 형태소 분석기 및 품사태거 평가 워크숍 논문집, pp.123-136, 1999
  8. 장동현, 맹성현, '학습데이타를 이용하여 생성한 규칙과 사전을 이용한 명사 추출기', 제1회 형태소 분석기 및 품사태거 평가 워크숍 논문집, pp.151-156, 1999
  9. 강승식, '음절 특성을 이용한 한국어 불규칙 용언의 형태소 분석', 한국정보과학회 논문지, 제22권 제10호, pp.1480-1487, 1995
  10. 임희석, 윤보현, 임해창, '배제 정보를 이용한 효율적인 한국어 형태소 분석기', 한국정보과학회 논문지, 제22권 제6호, pp.957-964, 1995
  11. 강승식, 권혁일, 김동렬, '한국어 자동 색인을 위한 형태소 분석의 기능', 한국정보과학회 춘계 학술발표 논문집, 제22권, 제1호, pp.929-932, 1995
  12. 강승식, '한국어 형태소 분석기에서 불규칙 용언의 분석 모형', 한국정보과학회 논문지, 제19권 제2호, pp.151-164, 1992
  13. 이상주, 박봉래, 김진동, 류원호, 이도길, 임해창, '예측기반 형태소 분석기와 결합 독립 모형 기반 품사 태거 및 고속 명사 추출기', 제1회 형태소 분석기 및 품사태거 평가 워크숍 논문집, pp.145-150, 1999
  14. 김진동, 임희석, 임해창, 'Twoply HMM : 한국어의 특성을 고려한 형태소 단위의 품사 태깅 모델', 한국정보과학회 논문지(B), 제24권 제12호, pp.1502-1512, 1997
  15. 강승식, 이하규, '한국어 형태소 분석기 HAM의 형태소 분석 및 철자 검사 기능', 제 8회 한글 및 한국어 정보처리 학술발표 논문집, pp. 929-932, 1995