• Title/Summary/Keyword: 어절 정보

Search Result 378, Processing Time 0.045 seconds

Construction of Partial Word Morpheme Dictionary based on Tagged Corpus and Korean Morphological Analysis (말뭉치 기반 부분 어절 기분석 사전의 구축과 형태소 분석)

  • Shin, Joon-Choul;Ock, Cheol-Young
    • Annual Conference on Human and Language Technology
    • /
    • 2011.10a
    • /
    • pp.67-72
    • /
    • 2011
  • 기존의 말뭉치 기반 한국어 형태소 분석 방법은 대용량의 어절 기분석 사전을 사용하여 분석하고, 그 사전에 없는 어절은 코드 변환, 형태소 분리, 원형 복원 규칙 적용 등을 거치는 복잡한 분석 방법을 통해 후보들을 생성했다. 이 복잡한 분석 방법은 제작과 유지보수, 실행 관점 모두에서 효율적이지 못하며 정확률을 낮추고 속도를 느리게 하는 요인이 된다. 이런 문제를 해결하기 위해 부분 어절의 기분석 사전을 구축하여 사용하는 방법이 연구되었다. 본 논문에서는 대용량의 분석 말뭉치를 통해 부분 어절의 기분석 사전을 구축하고 형태소 분석에 사용하는 방법을 제안한다. 세종 말뭉치로 실험한 결과 재현율이 99.05%였으며, 품사 및 동형이의어 태깅 정확률은 96.76%였다.

  • PDF

Korean Part-of-Speech Tagging System Using Resolution Rules for Individual Ambiguous Word (어절별 중의성 해소 규칙을 이용한 혼합형 한국어 품사 태깅 시스템)

  • Park, Hee-Geun;Ahn, Young-Min;Seo, Young-Hoon
    • Journal of KIISE:Computing Practices and Letters
    • /
    • v.13 no.6
    • /
    • pp.427-431
    • /
    • 2007
  • In this paper we describe a Korean part-of-speech tagging approach using resolution rules for individual ambiguous word and statistical information. Our tagging approach resolves lexical ambiguities by common rules, rules for individual ambiguous word, and statistical approach. Common rules are ones for idioms and phrases of common use including phrases composed of main and auxiliary verbs. We built resolution rules for each word which has several distinct morphological analysis results to enhance tagging accuracy. Each rule may have morphemes, morphological tags, and/or word senses of not only an ambiguous word itself but also words around it. Statistical approach based on HMM is then applied for ambiguous words which are not resolved by rules. Experiment shows that the part-of-speech tagging approach has high accuracy and broad coverage.

A Korean Part-of-Speech Tagger using Simplified Eojeol-based unit (단순화된 어절을 단위로 하는 한국어 품사 태거)

  • Lee, Eui-Hyeon;Kim, Young-Gil;Shin, Jaehun;Kwon, Hong-Seok;Lee, Jong-Hyeok
    • 한국어정보학회:학술대회논문집
    • /
    • 2016.10a
    • /
    • pp.268-272
    • /
    • 2016
  • 영어권 언어가 어절 단위로 품사를 부여하는 반면, 한국어는 굴절이 많이 일어나는 교착어로서 데이터부족 문제를 피하기 위해 형태소 단위로 품사를 부여한다. 이러한 구조적 차이 안에서 한국어에 적합한 품사 태깅 단위는 지속적으로 논의되어 왔으며 지금까지 음절, 형태소, 어절, 구가 제안되었다. 본 연구는 어절 단위로 태깅함으로써 야기되는 복잡한 품사 태그와 데이터부족 문제를 해소하기 위해 어절에서 주요 실질 형태소와 주요 형식 형태소만을 뽑아 새로운 어절을 생성하고, 생성된 단순한 어절에 대해 CRF 태깅을 수행하였다. 실험결과 평가 말뭉치에서 미등록 어절 등장 비율은 9.22%에서 5.63%로 38.95% 감소시키고, 어절단위 정확도를 85.04%에서 90.81%로 6.79% 향상시켰다.

  • PDF

Korean Spelling Corrector Based on Corpus Analysis (말뭉치를 기반으로 한 한국어 철자 교정기의 구현)

  • Lee, Byeong-Hun;Yun, Jun-Tae;Song, Man-Suk
    • Annual Conference on Human and Language Technology
    • /
    • 1993.10a
    • /
    • pp.285-293
    • /
    • 1993
  • 대량의 말뭉치에서 나타나는 맞춤법 오류의 대부분은 타자수의 입력 실수로 인한 것이다. 맞춤법 오류의 유형은 크게 띄어 쓰기 오류, 철자 오류, 띄어 쓰기와 철자의 복합 오류의 세 가지로 나타난다. 이 중, 철자 오류를 표층 형태만으로 표준어 오류, 조사/어미 오류, 자소 대치 오류로 유형을 분류하였다. 본 논문은 300만 말뭉치에서 형태소 분석이 실패한 맞춤법 오류 어절 중에서 띄어 쓰기와 철자 오류를 분석하여, 각 오류 유형에 따른 교정 방법과 자소 대치 규칙 베이스를 이용한 교정 방법을 구현하였다. 또한 형태소 분석기를 거친 40만 어절 사전을 이용한 분석기로 기존의 형태소 분석기를 대치시켜 교정 어절을 검증하였고, 위의 사전에서 추출한 순위 결정 요소와 Heuristic 정보를 이용하여 각 후보 어절에 대한 가중치를 계산하고 가능성이 높은 교정 어절을 제시하는 시스템을 구현하였다.

  • PDF

Accurate Unlexicalized Korean Parsing (고성능 비어휘정보 한국어 구문분석)

  • Oh, Jin-Young;Cha, Jeong-Won
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2010.06c
    • /
    • pp.295-298
    • /
    • 2010
  • 본 논문에서는 어휘정보를 사용하는 한국어 구문분석 성능과 거의 비슷한 성능을 내는 비어휘정보 한국어 의존 구문분석에 대해서 설명한다. 본 논문에서는 어휘정보를 대신해서 품사정보와 어절 구문태그 정보를 사용하고 CRFs를 사용하여 레이블링 방법으로 구문분석 한다. 자질을 변경하여 어절 처음에 나타나는 용어 정보와 뒤 어절의 용언 정보를 추가하였다. 본 논문에서 제시하는 실험 결과(어절:85.73%, 문장:43.86%)는 현재 최고의 성능을 내는 어휘정보 사용 한국어 구문분석과 비슷하다. 본 논문에서 제안한 비어휘정보 구문분석 방법은 어휘정보 구문분석에 비해 모델 사이즈가 작고 처리방법이 간단하여 쉽게 다른 도메인에 적용이 가능할 것으로 기대한다.

  • PDF

Improvement of a Korean Speller with Collocation of Parts of Speech (연어 정보를 이용한 한국어 철자 검사기의 기능 개선)

  • Sim, Chul-Min;Kim, Hyun-Jin;Kim, Young-Jin;Kwon, Hyuk-Chul
    • Annual Conference on Human and Language Technology
    • /
    • 1995.10a
    • /
    • pp.86-90
    • /
    • 1995
  • 본 논문에서는 한 어절 단위에서 다수 어절 단위로 그 고려 영역을 확장한 개선된 철자 검사기를 제시한다. 개선된 철자 검사기는 1) 한 어절 철자 검사 교정부, 2) 언어 규칙 처리부, 3) 문장 부호 규칙 처리부로 구성된다. 한 어절 철자 검사 교정부는 기존의 철자 검사기와 같은 기능을 수행한다. 연어 규칙처리부는 형태소간의 연어 관계를 이용하여 7가지로 유형 분류된 어절 간 오류를 처리한다. 문장 부호 처리부는 문장 부호 자체의 오류와 문장 부호를 참조하여 좌우 어절들의 오류를 검사한다. 현재 256가지의 연이 규칙과 51가지의 문장 부호 규칙이 구축되어 있다. 본 논문에서 제시한 개선된 철자 검사기는 한국어 문체 검사기(Korean Style Checker) 로서 의의를 가지며, 형태소의 연어 정보는 향후 파싱 등의 문장 분석이나 의미 분석에 중요한 자료로 이용될 수 있을 것으로 기대된다.

  • PDF

Korean Homograph Tagging Model based on Sub-Word Conditional Probability (부분어절 조건부확률 기반 동형이의어 태깅 모델)

  • Shin, Joon Choul;Ock, Cheol Young
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.3 no.10
    • /
    • pp.407-420
    • /
    • 2014
  • In general, the Korean morpheme analysis procedure is divided into two steps. In the first step as an ambiguity generation step, an Eojeol is analyzed into many morpheme sequences as candidates. In the second step, one appropriate candidate is chosen by using contextual information. Hidden Markov Model(HMM) is typically applied in the second step. This paper proposes Sub-word Conditional Probability(SCP) model as an alternate algorithm. SCP uses sub-word information of adjacent eojeol first. If it failed, then SCP use morpheme information restrictively. In the accuracy and speed comparative test, HMM's accuracy is 96.49% and SCP's accuracy is just 0.07% lower. But SCP reduced processing time 53%.

Korean Part-of-Speech Tagging using Constrained-Rule and Main POS Information among Words (어절간 주품사 정보와 제약 규칙을 이용한 한국어 품사 태깅 시스템)

  • Kang, Yu-Hwan;Seo, Young-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10e
    • /
    • pp.433-437
    • /
    • 1999
  • 본 논문에서는 품사 태깅을 위한 방법으로 어절간 품사 패턴 정보를 이용하는 방법을 제안한다. 품사 태깅을 위하여 여러 어절들 간의 품사 패턴 정보를 통계 정보로 구축하고 품사 태깅시에 품사 패턴 정보를 이용하여 품사 태깅을 수행한다. 이때 품사 패턴 적용시 몇가지 제약 규칙을 둠으로써 품사 태깅의 정확률을 높이는 방법을 연구하였다.

  • PDF

A Study on the Development of a Practical Morphological Analysis System Based on Word Analysis (어절 분석 기반 형태소 분석 시스템 개발에 관한 연구)

  • 조현양;최성필;최재황
    • Journal of the Korean Society for information Management
    • /
    • v.18 no.2
    • /
    • pp.105-124
    • /
    • 2001
  • The purpose of this study is to develop a Korean word analysis system, which can improve performance of IRS, based on various methods of word analysis. In this study we focused on maximizing the speed of Korean word analysis, modulizing each functional system and analyzing Korean morpheme precisely. The system, developed in this study, implemented optimal algorithm to increase the speed of word analysis and to verify speed and performance of each subsystem. In addition, the numeral analysis processing was achieved to reduce a system burden by avoiding recursive analysis of compound nouns, based on numeral pattern recognition.

  • PDF

A Noun Extractor using Connectivity Information (좌우접속정보를 이용한 명사추출기)

  • An, Dong-Un
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10d
    • /
    • pp.173-178
    • /
    • 1999
  • 본 논문의 명사추출기는 정보검색시스템을 위한 색인어 추출기로 좌우접속정보를 이용한 형태소해석을 통하여 얻어진 형태소들 중에서 명사를 추출한다. 본 형태소해석기는 형태소해석을 위한 언어지식과 어절 분리 엔진을 분리하여 수정과 확장이 용이하게 하였다. 사용한 언어지식은 좌우접속정보로서 한 어절을 이루는 형태소들의 품사간의 접속여부를 행렬로 표현한 것이다. 어절 분리 엔진은 사전을 참조하여 한 어절에서 최장일치법에 의해 형태소를 분리하고 좌우접속정보를 참조하여 형태소 분리가 올바른지를 판단한다. 형태소들의 품사분류는 표준 태그셋을 기반으로 음절 정보를 추가하여 확장하였다. 형태소를 해석한 결과 미등록어가 발생하였을 때 미등록어에서 명사를 추정하는 모듈이 없기 때문에 재현율은 좋지 않았다.

  • PDF