인접 조건 검사에 의한 초고속 한국어 형태소 분석

High Speed Korean Morphological Analysis based on Adjacency Condition Check

  • 심광섭 (성신여자대학교 컴퓨터정보학부) ;
  • 양재형 (강남대학교 컴퓨터미디어공학부)
  • 발행 : 2004.01.01

초록

본 논문에서는 코드 변환 과정과 축약, 탈락, 불규칙 활용 둥으로 변형된 형태소의 원형을 복원하고 분석 후보를 생성하는 등의 과정을 거치지 않고 형태소 사전에서 제공되는 인접 조건에 대한 검사만으로 형태소 분석을 하는 방법을 제안한다. 인접 조건 검사는 복잡한 연산을 하지 않고 단순한 비트 연산만으로 할 수 있기 때문에 제안된 방법은 초고속 형태소 분석기 구현에 적합하다. 본 논문에서 제안한 방법에 따라 구현된 한국어 형태소 분석기 MACH는 1.13 GHz Pentium III 개인용 컴퓨터에서 대략 5분/GB의 분석 속도를 보였으며, 분석 정확도는 99.2 %로 기존의 다른 분석기와 큰 차이가 없었다.

This paper proposes a morphological analysis method that enables morphological analysis by checking conditions between two adjacent morphemes. These conditions are fed from a dictionary. This method eliminates a code conversion module and the application of transformational rules for candidate generation. The method claims that very high speed morphological analysis is attainable through simple bit operations for adjacency condition check. MACH, an implementation of the proposed method, is a supersonic Korean morphological analyzer which is able to analyze a document of 1 GB in 5 minutes on a PC with 1.13 GHz Pentium III CPU. The analysis accuracy of MACH is 99.2 %.

키워드

참고문헌

  1. 김영관, 박민식, 최진석, 권혁철, '사전 성능 개선을 통한 한국어 형태소 분석기의 분석 속도 향상', 제11회 한글 및 한국어 정보처리 학술대회 논문집, pp.479-483, 1999
  2. 양승현, 김영섬, '부분 어절의 기분석에 기반한 고속 한국어 형태소 분석방법', 정보과학회 논문지 : 소프트웨어 및 응용, 27권, 3호, pp.290-301, 2000
  3. Kwangseob Shim and Jaehyung Yang, 'MACH:A Supersonic Korean Morphological Analyzer,' Proceedings of the 19th International Conference on Computational Linguistics (COLING-2002), pp. 939-945, 2002 https://doi.org/10.3115/1072228.1072320
  4. 강승식, '음절 정보와 복수어 단위 정보를 이용한 한국어 형태소 분석', 서울대학교 공학박사 학위 논문, 1993
  5. 임희석, 윤보현, 임해창, '배제 정보를 이용한 효율적인 한국어 형태소 분석기', 한국정보과학회 논문지, 제22권 제6호, pp.957-964, 1995
  6. 최재혁, 이상조, '양방향 최장일치법에 의한 한국어 형태소 분석기에서의 사전 횟수 감소 방안', 정보과학회논문지, 20권, 10호, pp.1497-1507, 1993
  7. 백대호, 이호, 임해창, 'Finite State Transducer를 이용한 한국어 전자 사전의 구조', 제7회 한글 및 한국어정보처리 학술발표 논문집, pp.181-187, 1995
  8. 김재한, 옥철영, '어절 사전을 이용한 한국어 형태소 분석', 한국정보과학회 봄 학술발표 논문집, 21권 1호, pp.813-816, 1994
  9. Hyuk-Chul Kwon, Young-Soog Chae, 'A Dictionary-Based Morphological Analysis,' Proc. of Natural language processing, Pacific Rim Symposium '91, Singapore, pp.178-185, 1991
  10. 은종진, 박선영, '고성능 한국어 형태소 분석을 위한 어미 분류', 제12회 한글 및 한국어 정보처리 학술대회 논문집, pp.41-47, 2000
  11. 김철수, 배우정, 이용석, 청강순일, '이중 배열 트라이 구조를 이용한 한국어 전자 사전의 구축', 정보과학회 논문지(B) 23권, 1호, pp.85-94, 1996
  12. 이도길, 류원호, 임해창, '분석 배제 정보와 후절어를 이용한 한국어 명사 추출', 제12회 한글 및 한국어 정보 처리 학술대회 논문집, pp.19-25, 2000