• Title/Summary/Keyword: 품사 태거

Search Result 33, Processing Time 0.021 seconds

Automatic Acquisition of Lexical Rules for Part-of-Speech Tagging (품사태깅을 위한 어휘규칙의 자동획득)

  • Lee, Sang-Zoo;Ryu, Won-Ho;Kim, Jin-Dong;Rim, Hae-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 1998.10c
    • /
    • pp.20-27
    • /
    • 1998
  • 기존의 어휘규칙기반 품사태거는 품사문맥이나 어휘확률만을 사용하는 통계적 품사태거에 의해 해결되지 않는 형태론적 중의성을 어휘문맥을 참조하는 어휘규칙을 사용함으로써 효과적으로 해결할 수 있었다. 그러나 어휘규칙을 수작업으로 획득하기 때문에 규칙 획득에 많은 시간이 소요되어 소량의 규칙만이 사용되었다. 본 논문에서는 품사부착말뭉치로부터 어휘규칙을 자동으로 획득하는 방법을 제안한다. 제안된 방법으로 자동획득된 어휘규칙을 사용하여 실험말뭉치의 66.1%를 98.8%의 정확률로 태깅하였다. 이로써 통계적 품사태거만을 사용할 때(95.43% 정확률) 보다 어휘규칙과 결합할 때(96.12% 정확률) 통계적 품사태거의 성능이 약 15.1%(0.69% 정확률)만큼 향상되었다. 또한 제안된 방법은 영어 품사태깅에 대해서도 효과적임이 실험을 통해 증명되었다.

  • PDF

Implementation of an English POS Tagger for Medical (의학용 영어 품사 태거 구현)

  • Lee, Hyeon-Gu;Ahn, HyeokJu;Kim, HarkSoo
    • Annual Conference on Human and Language Technology
    • /
    • 2015.10a
    • /
    • pp.155-156
    • /
    • 2015
  • 자연어처리의 여러 분야에서 기본요소로 사용되는 영어 품사 태거를 UMLS의 의학용어 어휘정보와 OANC(Open American National Corpus) 말뭉치를 이용해 의학용 문서도 분석 가능한 의학용 영어 품사 태거를 제안한다. TRIE구조를 이용한 단어 묶음 모델로 여러 어절의 의학용어를 하나로 묶고 HMM(Hiden Markov Model)을 이용한 품사 태거로 해당하는 품사를 부착한다.

  • PDF

A Predictive Morphological Analyzer, A Part-of-Speech Tagger Based on Joint Independence Model, and A Fast Noun Extractor (예측 기반 형태소 분석기와 결합 독립 모형 기반 품사 태거 및 고속 명사 추출기)

  • Lee, Sang-Zoo;Park, Bong-Rae;Kim, Jin-Dong;Ryu, Won-Ho;Lee, Do-Gil;Rim, Hae-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10d
    • /
    • pp.145-150
    • /
    • 1999
  • 본 논문에서는 한국어 자연어 정보처리 기술 표준화를 위한 형태소 분석기 및 품사 태거 평가 대회(MATEC99)에 참여한 고려대학교의 형태소 분석기, 품사 태거, 그리고 명사 추출기를 설명하고 평가 결과를 기술한다. 형태소 분석기는 입력된 어절을 우에서 좌로 분석하며 각 상태에 대한 예측 정보를 활용하여 불필요한 분석 후보에 대한 탐색을 수행하지 않도록 한다. 품사 태거로는 띄어쓰기를 고려한 형태소 품사 2-그램 확률과 띄어쓰기를 고려한 형태소 어휘-품사 3-그램 어휘 확률을 이용하는 결합 독립 모형을 사용한다. 고속 명사 추출기는 고속의 FST 사전과 한국어 특성을 반영한 휴리스틱을 이용한다.

  • PDF

Korean Part-Of-Speech Tagging by using Head-Tail Tokenization (Head-Tail 토큰화 기법을 이용한 한국어 품사 태깅)

  • Suh, Hyun-Jae;Kim, Jung-Min;Kang, Seung-Shik
    • Smart Media Journal
    • /
    • v.11 no.5
    • /
    • pp.17-25
    • /
    • 2022
  • Korean part-of-speech taggers decompose a compound morpheme into unit morphemes and attach part-of-speech tags. So, here is a disadvantage that part-of-speech for morphemes are over-classified in detail and complex word types are generated depending on the purpose of the taggers. When using the part-of-speech tagger for keyword extraction in deep learning based language processing, it is not required to decompose compound particles and verb-endings. In this study, the part-of-speech tagging problem is simplified by using a Head-Tail tokenization technique that divides only two types of tokens, a lexical morpheme part and a grammatical morpheme part that the problem of excessively decomposed morpheme was solved. Part-of-speech tagging was attempted with a statistical technique and a deep learning model on the Head-Tail tokenized corpus, and the accuracy of each model was evaluated. Part-of-speech tagging was implemented by TnT tagger, a statistical-based part-of-speech tagger, and Bi-LSTM tagger, a deep learning-based part-of-speech tagger. TnT tagger and Bi-LSTM tagger were trained on the Head-Tail tokenized corpus to measure the part-of-speech tagging accuracy. As a result, it showed that the Bi-LSTM tagger performs part-of-speech tagging with a high accuracy of 99.52% compared to 97.00% for the TnT tagger.

A Hybrid N-best Part-of-Speech Tagger for English-Korean Machine Translation (영한 기계 번역을 위한 혼합형 N-best 품사 태거)

  • Lim, Heui-Seok;Kwon, Cheol-Joong;Lee, Jae-Won;Oh, Ki-Eun
    • Annual Conference on Human and Language Technology
    • /
    • 1998.10c
    • /
    • pp.15-19
    • /
    • 1998
  • 기계 번역 시스템에서 품사 태거의 오류는 전체번역 정확률에 결정적인 영향을 미친다. 따라서 어휘 단계의 정보만으로는 중의성 해소가 불가능한 단어에 대해서는 중의성 해소에 충분한 정보를 얻을 수 있는 구문 분석이나 의미 분석 단계까지 완전한 중의성 해소를 유보하는 N-best 품사 태거가 요구된다. 또한 N-best 품사 태거는 단어에 할당되는 평균 품사 개수를 최소화함으로써 상위 단계의 부하를 줄이는 본연의 역할을 수행하여야 한다. 본 논문은 통계 기반 품사 태깅 방법을 이용하여 N-best 후보를 선정하고, 선정된 N-best 후보에 언어 규칙을 적용하여 중의성을 감소시키거나 오류를 보정하는 혼합형 N-best 품사 태깅 방법을 제안한다 제안된 N-best 품사 태거는 6만여 단어의 영어 코퍼스에서 실험한 결과, 단어 당 평균 1.09개의 품사를 할당할 때 0.43%의 오류율을 보인다.

  • PDF

Improving Part-of-speech Tagger by using Sejong Corpus (세종 계획 말뭉치를 이용한 품사 태거의 성능 개선)

  • Kim, Hyung-Joon;Lim, Dong-Hee;Kang, Seung-Shik;Eun, Ji-Hyun;Chang, Du-Seong
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2007.06c
    • /
    • pp.177-180
    • /
    • 2007
  • 품사 태거를 구축할 때 어휘사전 증축이나 변환을 통해 성능 개선을 시도하지만 적당한 품사 태깅 코퍼스의 부재와 태그셋 불일치로 인한 변환 과정에 어려움을 겪고 있다. 본 논문에서는 세종 말뭉치 품사 태깅 코퍼스를 이용하여 품사 태깅용 어휘사전을 증축하고 품사 태거에 적용하여 성능을 개선하는 과정을 기술하였다. 품사 태거의 성능을 개선하기 위하여 세종 코퍼스를 태거의 태그셋에 적합하게 변환하고, 변환된 코퍼스에서 추출된 통계 정보를 품사 태거에서 활용하였다. 세종 코퍼스를 이용하여 품사 태거를 위한 어휘사전을 보강함으로써 품사 태거의 성능을 향상시킬 수 있었다.

  • PDF

Syllable-based POS Tagging without Korean Morphological Analysis (형태소 분석기 사용을 배제한 음절 단위의 한국어 품사 태깅)

  • Shim, Kwang-Seob
    • Korean Journal of Cognitive Science
    • /
    • v.22 no.3
    • /
    • pp.327-345
    • /
    • 2011
  • In this paper, a new approach to Korean POS (Part-of-Speech) tagging is proposed. In previous works, a Korean POS tagger was regarded as a post-processor of a morphological analyzer, and as such a tagger was used to determine the most likely morpheme/POS sequence from morphological analysis. In the proposed approach, however, the POS tagger is supposed to generate the most likely morpheme and POS pair sequence directly from the given sentences. 398,632 eojeol POS-tagged corpus and 33,467 eojeol test data are used for training and evaluation, respectively. The proposed approach shows 96.31% of POS tagging accuracy.

  • PDF

A Stochastic Model for Leical Disambiguation in Korean (한국어 품사 모호성 해서를 위한 통계적 모델)

  • 이상호
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1994.06c
    • /
    • pp.71-74
    • /
    • 1994
  • 종래의 자연언어 처리 시스템에서는 품사 모호성이 그대로 구문 분석기의 입력으로 사용되었으나, 최근에와서 품사 모호성 해소에 관한 논의가 활발히 진행되고 있다. 본 논문에서는 품사 모호성 해소를 위한 두 개의 통계적 모델이 경로 기반 태깅 모델과 상태 기반 태깅 모델을 설명한다. 그리고하나의 최적 품사열만을 구할 경우 단어당 94% 내외의 정확률을 가지므로 N개의 최적 품사열을 구하는 다중 출력 태거에 대해 각각 설명한다.끝으로 한국어에 이러한 통계적 모델들을 적용한 결과와 발생되는 문제점들을 논한다.

  • PDF

A Korean Part-of-Speech Tagger using Simplified Eojeol-based unit (단순화된 어절을 단위로 하는 한국어 품사 태거)

  • Lee, Eui-Hyeon;Kim, Young-Gil;Shin, Jaehun;Kwon, Hong-Seok;Lee, Jong-Hyeok
    • 한국어정보학회:학술대회논문집
    • /
    • 2016.10a
    • /
    • pp.268-272
    • /
    • 2016
  • 영어권 언어가 어절 단위로 품사를 부여하는 반면, 한국어는 굴절이 많이 일어나는 교착어로서 데이터부족 문제를 피하기 위해 형태소 단위로 품사를 부여한다. 이러한 구조적 차이 안에서 한국어에 적합한 품사 태깅 단위는 지속적으로 논의되어 왔으며 지금까지 음절, 형태소, 어절, 구가 제안되었다. 본 연구는 어절 단위로 태깅함으로써 야기되는 복잡한 품사 태그와 데이터부족 문제를 해소하기 위해 어절에서 주요 실질 형태소와 주요 형식 형태소만을 뽑아 새로운 어절을 생성하고, 생성된 단순한 어절에 대해 CRF 태깅을 수행하였다. 실험결과 평가 말뭉치에서 미등록 어절 등장 비율은 9.22%에서 5.63%로 38.95% 감소시키고, 어절단위 정확도를 85.04%에서 90.81%로 6.79% 향상시켰다.

  • PDF

A Korean Part-of-Speech Tagger using Simplified Eojeol-based unit (단순화된 어절을 단위로 하는 한국어 품사 태거)

  • Lee, Eui-Hyeon;Kim, Young-Gil;Shin, Jaehun;Kwon, Hong-Seok;Lee, Jong-Hyeok
    • Annual Conference on Human and Language Technology
    • /
    • 2016.10a
    • /
    • pp.268-272
    • /
    • 2016
  • 영어권 언어가 어절 단위로 품사를 부여하는 반면, 한국어는 굴절이 많이 일어나는 교착어로서 데이터부족 문제를 피하기 위해 형태소 단위로 품사를 부여한다. 이러한 구조적 차이 안에서 한국어에 적합한 품사 태깅 단위는 지속적으로 논의되어 왔으며 지금까지 음절, 형태소, 어절, 구가 제안되었다. 본 연구는 어절 단위로 태깅함으로써 야기되는 복잡한 품사 태그와 데이터부족 문제를 해소하기 위해 어절에서 주요 실질 형태소와 주요 형식 형태소만을 뽑아 새로운 어절을 생성하고, 생성된 단순한 어절에 대해 CRF 태깅을 수행하였다. 실험결과 평가 말뭉치에서 미등록 어절 등장 비율은 9.22%에서 5.63%로 38.95% 감소시키고, 어절단위 정확도를 85.04%에서 90.81%로 6.79% 향상시켰다.

  • PDF