Browse > Article

An Efficient Method for Korean Noun Extraction Using Noun Patterns  

이도길 (고려대학교 컴퓨터학과)
이상주 (㈜엔엘피솔루션)
임해창 (고려대학교 컴퓨터학과)
Abstract
Morphological analysis is the most widely used method for extracting nouns from Korean texts. For every Eojeol, in order to extract nouns from it, a morphological analyzer performs frequent dictionary lookup and applies many morphonological rules, therefore it requires many operations. Moreover, a morphological analyzer generates all the possible morphological interpretations (sequences of morphemes) of a given Eojeol, which may by unnecessary from the noun extraction`s point of view. To reduce unnecessary computation of morphological analysis from the noun extraction`s point of view, this paper proposes a method for Korean noun extraction considering noun occurrence characteristics. Noun patterns denote conditions on which nouns are included in an Eojeol or not, which are positive cues or negative cues, respectively. When using the exclusive information as the negative cues, it is possible to reduce the search space of morphological analysis by ignoring Eojeols not including nouns. Post-noun syllable sequences(PNSS) as the positive cues can simply extract nouns by checking the part of the Eojeol preceding the PNSS and can guess unknown nouns. In addition, morphonological information is used instead of many morphonological rules in order to recover the lexical form from its altered surface form. Experimental results show that the proposed method can speed up without losing accuracy compared with other systems based on morphological analysis.
Keywords
noun extraction; morphological analysis; unknown word guessing;
Citations & Related Records
연도 인용수 순위
  • Reference
1 이재성, 박재득, 차건희, 박세영, '형태소분석기 및 품사 태거 평가대회(MATEC99) 개요', 제1회 형태소 분석기 및 품사태거 평가 워크숍 논문집, pp.13-22, 1999
2 김남철, 서영훈, '형태소 분석기 CBKMA와 색인어 추출기 CBKMA/IX', 제1회 형태소 분석기 및 품사태거 평가 워크숍 논문집, pp.55-59, 1999
3 안동언, '좌우접속정보를 이용한 명사추출기', 제1회 형태소 분석기 및 품사태거 평가 워크숍 논문집, pp.173-178, 1999
4 심준혁, 김준석, 이근배, '통계와 규칙을 이용한 강인한 품사태거', 제1회 형태소 분석기 및 품사태거 평가 워크숍 논문집, pp.60-75, 1999
5 강승식, '음절 특성을 이용한 한국어 불규칙 용언의 형태소 분석', 한국정보과학회 논문지, 제22권 제10호, pp.1480-1487, 1995
6 장동현, 맹성현, '학습데이타를 이용하여 생성한 규칙과 사전을 이용한 명사 추출기', 제1회 형태소 분석기 및 품사태거 평가 워크숍 논문집, pp.151-156, 1999
7 이중영, 신병훈, 이공주, 김지은, 안상규, 'COM 기반의 다목적 형태소 분석기를 이용한 명사 추출기', 제1회 형태소 분석기 및 품사태거 평가 워크숍 논문집, pp.167-172
8 강승식, '한국어 형태소 분석기에서 불규칙 용언의 분석 모형', 한국정보과학회 논문지, 제19권 제2호, pp.151-164, 1992
9 권오욱, 정유진, 김미영, 류동원, 이문기, 이종혁, '음절단위 CYK 알고리즘에 기반한 형태소 분석기 및 품사태거', 제1회 형태소 분석기 및 품사태거 평가 워크숍 논문집, pp.76-88, 1999
10 이운재, 김선배, 김길연, 최기선, '모듈화된 형태소 분석기의 구현', 제1회 형태소 분석기 및 품사태거 평가 워크숍 논문집, pp.123-136, 1999
11 임희석, 윤보현, 임해창, '배제 정보를 이용한 효율적인 한국어 형태소 분석기', 한국정보과학회 논문지, 제22권 제6호, pp.957-964, 1995
12 강승식, 이하규, '한국어 형태소 분석기 HAM의 형태소 분석 및 철자 검사 기능', 제 8회 한글 및 한국어 정보처리 학술발표 논문집, pp. 929-932, 1995
13 강승식, 권혁일, 김동렬, '한국어 자동 색인을 위한 형태소 분석의 기능', 한국정보과학회 춘계 학술발표 논문집, 제22권, 제1호, pp.929-932, 1995
14 이상주, 박봉래, 김진동, 류원호, 이도길, 임해창, '예측기반 형태소 분석기와 결합 독립 모형 기반 품사 태거 및 고속 명사 추출기', 제1회 형태소 분석기 및 품사태거 평가 워크숍 논문집, pp.145-150, 1999
15 김진동, 임희석, 임해창, 'Twoply HMM : 한국어의 특성을 고려한 형태소 단위의 품사 태깅 모델', 한국정보과학회 논문지(B), 제24권 제12호, pp.1502-1512, 1997