부분 어절의 기분석에 기반한 고속 한국어 형태소 분석 방법

A High-Speed Korean Morphological Analysis Method based on Pre-Analyzed Partial Words

  • 발행 : 2000.03.15

초록

일반적으로 형태소 분석 방법은 실행시에 매 어절마다 코드 변환, 형태소 분리, 원형 복원 규칙 적용을 통한 분석 후보 생성, 사전 탐색을 통한 분석 후보의 여과 등의 절차를 거쳐 형태소 분석을 수행하기 때문에 실행 효율의 관점에서 효율적이지 못하다. 이러한 문제점을 완화시키기 위해 도입된 어절단위 기분석 사전에 의한 분석은 실행시 처리에 소요되는 계산 부하를 크게 줄일 수는 있지만 어절의 수가 사실상 무한하므로 사전의 크기 문제 때문에 완전한 처리 방법이 될 수 없다는 단점이 있다. 본 논문에서는 이상과 같은 문제점을 해결하기 위해 두가지 대비되는 방법론을 결합하여 부분 어절별로 기분석 결과를 구축하여 형태소를 분석하는 방법에 대해 기술하고 있다. 이 방법에 의하면, 형태소 분리, 원형 복원 등 형태소 분석에 필요한 계산의 대부분을 실행시에 행하지 않고 기분석 결과의 구축 시에 행함으로써 실행시 계산 부하를 크게 줄일 수 있고 불필요한 중간 결과가 생성되지 않아 사전 탐색 횟수가 크게 절감되는 효과가 있으므로, 실행 효율을 크게 개선할 수 있다. 아울러 음소별 연산을 하지 않으므로 코드 변환 등에 소요되는 계산량도 전혀 필요치 않다는 특징도 있다.

Most morphological analysis methods require repetitive procedures of input character code conversion, segmentation and lemmatization of constituent morphemes, filtering of candidate results through looking up lexicons, which causes run-time inefficiency. To alleviate such problem of run-time inefficiency, many systems have introduced the notion of 'pre-analysis' of words. However, this method based on pre-analysis dictionary of surface also has a critical drawback in its practical application because the size of the dictionaries increases indefinite to cover all words. This paper hybridizes both extreme approaches methodologically to overcome the problems of the two, and presents a method of morphological analysis based on pre-analysis of partial words. Under such hybridized scheme, most computational overheads, such as segmentation and lemmatization of morphemes, are shifted to building-up processes of the pre-analysis dictionaries and the run-time dictionary look-ups are greatly reduced, so as to enhance the run-time performance of the system. Moreover, additional computing overheads such as input character code conversion can also be avoided because this method relies upon no graphemic processing.

키워드

참고문헌

  1. 김성용, 최기선, 김길창, 'Tabular Parsing 방법과 접속 정보를 이용한 한국어 형태소 분석기', 한국정보과학회 춘계 인공지능발표논문집, pp. 133--147, 1987
  2. 최재혁, 이상조, '양방향 최장일치법을 이용한 한국어 형태소 분석기', 한국정보과학회 봄 학술발표논문집, Vol. 20, No. 1, pp. 769--772, 1993
  3. 강승식, '다층 형태론과 한국어 형태소 분석 모델', 제6회 한국어 정보처리 학술발표 논문집, pp. 140--145, 1994
  4. 강승식, 김영택, '사전 정보에 기반한 효율적인 한국어 형태소 분석기의 설계 및 구현', 한국정보과학회 봄 학술발표논문집, Vol. 18, No. 1, 1991
  5. 김영택, 자연언어처리, 교학사, 1994
  6. 이은철, 이종혁, '계층적 기호 접속정보를 이용한 한국어 형태소 분석기의 구현', 제 4회 한글 및 한국어 정보처리 학술발표 논문집, pp. 95--104, 1992
  7. 최재혁, 이상조, '양방향 최장일치법을 이용한 한국어 형태소 분석기에서의 사전 검색 횟수 감소 방안', 한국정보과학회 논문지, Vol. 20, No. 10, 1993
  8. 김재한, 옥철영, '통합형태소를 이용한 한국어 형태소 분석기', 한국정보과학회 가을 학술발표논문집, Vol 21, No. 2, pp. 653--656, 1994
  9. 강승식, 김영택, '한국어 형태소 분석기에서 선어말어미의 분석 모형', 한국정보과학회 논문지, Vol. 18, No. 5, pp. 505--513, 1991
  10. 권혁철, 채영숙, 김재원, 김민정, '한국어 철자 검색을 위한 형태소 분석 기법', 우리말 정보화 큰잔치, pp. 179--186, 1991
  11. 김재한, 안미정, 옥철영, '활용 형태소에 기반한 한국어 형태소 분석기', 한국정보과학회 가을 학술발표논문집, Vol. 20, No. 2, 1993
  12. 김재한, 옥철영, '어절 사전을 이용한 한국어 형태소 분석', 한국정보과학회 봄 학술발표논문집, Vol. 21, No. 1, pp. 813--816, 1994
  13. 조영환, 차희준, 김길창, '확장 사전 환경에서의 한국어 형태소 해석과 생성', 제5회 한글 및 한국어 정보처리 학술발표 논문집, pp. 355--368, 1993