(A Method to Classify and Recognize Spelling Changes between Morphemes of a Korean Word)

한국어 어절의 철자변화 현상 분류와 인식 방법

  • 김덕봉 (성공회대학교 컴퓨터정보공학부)
  • Published : 2003.06.01

Abstract

There is no explicit spelling change information in part-of-speech tagged corpora of Korean. It causes some difficulties in acquiring the data to study Korean morphology, i.e. automatically in constructing a dictionary for morphological analysis and systematically in collecting the phenomena of the spelling changes from the corpora. To solve this problem, this paper presents a method to recognize spelling changes between morphemes of a Korean word in tagged corpora, only using a string matching, without using a dictionary and phonological rules. This method not only has an ability to robustly recognize the spelling changes because it doesn't use any phonological rules, but also can be implemented with few cost. This method has been experimented with a large tagged corpus of Korean, and recognized the 100% of spelling changes in the corpus with accuracy.

현재의 한국어 형태소 태그 부착 말뭉치에는 형태소 결합 경계의 철자변화 정보가 명시적으로 표시되어 있지 않다. 이로 인해 태그 부착 말뭉치로부터 형태소 분석에 필요한 사전을 자동으로 구축하거나 형태소 결합 경계의 철자변화 현상에 대한 체계적 예제 수집 등과 같은 한국어 형태론 연구에 필요한 자료 획득이 어렵다. 이 문제를 해결하기 위하여 본 논문은 사전과 음운 규칙을 이용하지 않고, 태그 부착 말뭉치의 어절 문자열과 형태소 문자열만을 비교하여 어절을 구성하는 형태소의 철자변화 현상을 인식하는 간단한 방법을 제안한다. 이 방법은 규칙을 사용하지 않기 때문에 두 형태소 결합으로 나타나는 모든 철자변화 현상을 유연하게 인식할 수 있고, 알고리즘 구현만으로 문제를 해결할 수 있기 때문에 비용이 싸다는 특징이 있다. 한 태그 부착 말뭉치에 대한 실험에서 본 방법은 실험 말뭉치 어절에 나타나는 철자 변화를 100% 인식하는 것으로 나타났다.

Keywords

References

  1. 윤준태, 최기선, KAIST 말뭉치에 대한 고찰, 한국과학기술원 기술보고서, CS-TR-99-02/KORTERM-TR 99-02, 1999
  2. 21세기 세종계획 홈페이지, http://www.sejong.or.kr/sejong-kr/index.html, 2002
  3. 윤준태, 최기선, 한국어 품사 부착 말뭉치에 대한 고찰, 한국과학기술원 기술보고서, CS-TR-99-138/KORTERM-TR-99-01, 1999
  4. J. H. Kim and B. G. Jang, Acquiring Rules for Reducing Morphological Ambiguity from POS Tagged Corpus in Korean, Natural Language Engineering, pp. 1-15, 1997
  5. 양승현, 김영섬, 부분 어절의 기분석에 기반한 고속 한국어 형태소 분석 방법, 정보과학회논문지: 소프트웨어 및 응용, 제27권 제3호, pp. 290- 301, 2000
  6. 김성용, Tabular Parsing 방법과 접속정보를 이용한 한국어 형태소 분석기, 한국과학기술원 석사논문, 1987
  7. 최재혁, 이상조, 양방향 최장일치법을 이용한 한국어 형태소 분석기에서의 사전 검색 횟수 감소 방안, 한국정보과학회 논문지, 제20권 제10호,. pp. 1497-1507, 1993
  8. S. S. Kang and Y. T. Kim, Syllable-based Model for. the Korean Morphology, Proceedings of COLING 94, Kyoto, Japan, pp. 221-232, 1994 https://doi.org/10.3115/991886.991923
  9. D. B. Kim, S. J. Lee, K. S. Choi and G. C. Kim. A Two-Level Morphological Analysis of Korean, Proceedings of COLING 94, Kyoto, Japan, pp. 535-539, 1994 https://doi.org/10.3115/991886.991979
  10. D. B. Kim, K. S. Choi and K. H. Lee, A Computational Model of Korean Morphological Analysis: A Prediction-based Approach, Journal of East Asian Linguistics 5, Kluwer Academic Publishers, pp. 183-215, 1996 https://doi.org/10.1007/BF00215073
  11. 한글 맞춤법 문교부 고시 제88-1호, 1988
  12. 남기심, 고영근, 표준 국어문법론, 탑출판사, 1994