DOI QR코드

DOI QR Code

효율적인 한국어 파싱을 위한 최장일치 기반의 형태소 분석기 기능 확장

Functional Expansion of Morphological Analyzer Based on Longest Phrase Matching For Efficient Korean Parsing

  • 투고 : 2016.03.21
  • 심사 : 2016.06.30
  • 발행 : 2016.06.30

초록

한국어는 문장 구성소의 생략과 수식 범위가 자유롭기 때문에 파싱보다는 형태소 분석 단계에서 처리하면 좋은 경우가 있다. 본 논문에서는 파싱의 부담을 덜어 줄 수 있는 형태소 분석기의 기능 확장 방안을 제안한다. 이 방법은 미지어의 추정, 복합 명사 및 복합동사의 처리, 숫자 및 심볼의 처리에 의해 여러 형태소 열이 하나의 구문 범주를 가질 때 이것을 최장일치 방법으로 결합하고 의미 자질을 부여하여 하나의 구문 단위로 처리하는 것이다. 제안한 형태소 분석 방법은 불필요한 형태론적 모호성이 제거되고 형태소 분석 결과가 줄어들어 태거 및 파서의 정확률이 향상되었다. 또한, 실험을 통해 파싱트리는 평균 73.4%, 파싱 시간은 평균 52.9%로 줄었음을 보인다.

Korean is free of omission of sentence elements and modifying scope, so managing it on morphological analyzer is better than parser. In this paper, we propose functional expansion methods of the morphological analyzer to ease the burden of parsing. This method is a longest phrase matching method. When the series of several morpheme have one syntax category by processing of Unknown-words, Compound verbs, Compound nouns, Numbers and Symbols, our method combines them into a syntactic unit. And then, it is to treat by giving them a semantic features as syntax unit. The proposed morphological analysis method removes unnecessary morphological ambiguities and deceases results of morphological analysis, so improves accuracy of tagger and parser. By empirical results, we found that our method deceases 73.4% of Parsing tree and 52.4% of parsing time on average.

키워드

참고문헌

  1. Kang, Seungsik, "Morphological Characteristic and Morphological Analysing technique of Korean," Journal of KIISE, vol.12, no.8, pp. 47-59, 1994.
  2. Kim, kicheol, "Morphological Analysis-driven Processing of Compound Verbals for Effective Korean Analysis," Ph.D. thesis, Jeonbuk National University, 1995.
  3. Hwang, Igyu, "Morphological and syntactic ambiguity reduction using syntactic morpheme," Ph.D. thesis, Jeonbuk National University, 2001.
  4. Sim, kwangsub, "Syllable-based POS Tagging without Korean Morphological Analysis," The Korean Society for Cognitive Science, Journal of Cognitive Science, vol.22, no.3, pp. 327-345, 2011. 9. https://doi.org/10.19066/cogsci.2011.22.3.005
  5. Kim, sangwoo, Seo jeongyeon, " Light Weight Korean Morphological Analysis Using Left-longest-match-preference model and Hidden Markov Model," The Korean Society for Cognitive Science, Journal of Cognitive Science, vol.24, no.2, pp. 95-109, 2013. 6. https://doi.org/10.19066/cogsci.2013.24.2.001
  6. Koh, seunghui, "Construction of syntactico- semantical language resources for the efficient processing of noun sequential structures in Korean.," Foreign Language University Ph.D. thesis, 2008.
  7. Kim, cheolsu, "An Efficient Electronic Dictionary Structure for the Korean Morphological Analysis Environment," Ph.D. thesis, Jeonbuk National University, 1998.
  8. KIBS : Korean Information Base System, http://kibs.kaist.ac.kr/kibs.
  9. Lee, Hyeonyeong, "Syntactic Analysis Based on Embedded Clausal Segmentation Using Extended Sentence Patterns Information", Ph.D. thesis, Jeonbuk National University, 2008.

피인용 문헌

  1. Mobile English Reading and Application Convergence Creativity vol.19, pp.12, 2018, https://doi.org/10.9728/dcs.2018.19.12.2305
  2. XML 문서 키워드 가중치 분석 기반 문단 추출 모델 vol.21, pp.11, 2016, https://doi.org/10.6109/jkiice.2017.21.11.2133
  3. 연관법령 검색을 위한 워드 임베딩 기반 Law2Vec 모형 연구 vol.18, pp.7, 2016, https://doi.org/10.9728/dcs.2017.18.7.1419
  4. 문서 분석 기반 주요 요소 추출 시스템 vol.23, pp.4, 2019, https://doi.org/10.6109/jkiice.2019.23.4.401