• Title/Summary/Keyword: 품사 부착 말뭉치

Search Result 52, Processing Time 0.031 seconds

Verification of POS tagged Corpus (품사 표지 부착 말뭉치 검증)

  • Lee, Mi-Kyoung;Jung, Han-Min;Sung, Won-Kyung;Park, Dong-In
    • Annual Conference on Human and Language Technology
    • /
    • 2005.10a
    • /
    • pp.145-150
    • /
    • 2005
  • 본 논문에서는 자연어 처리 연구에서 이용되는 품사 표지 부착 말뭉치의 오류 검증 방안에 대해 제안한다. 현재까지의 품사 표지 부착 말뭉치들은 정제보다는 구축에 중점을 두고 있으며, 기존의 오류 검출과 정정 방안에 관련된 연구들은 기 구축된 말뭉치를 대상으로 한 것이 아니라, 품사 표지 부착 시스템의 후 처리에 집중하고 있다. 형태소 분석기나 품사 표지 부착 시스템의 학습에 이용되는 품사 표지 부착 말뭉치가 오류 검증 단계를 거친다면 이 시스템들은 좀 더 높은 신뢰성을 가지게 될 것이다. 본 논문에서는 품사 표지부착 말뭉치 검증을 위한 어절 분할 오류, 철자 오류, 표지 부착 오류, 형식 오류, 일관성 오류의 5가지 오류 유형과 검증 방안을 제안한다. 또한 제안한 방법에 따라 세종 계획의 형태소 분석 말뭉치의 오류를 검증해 보았으며, 그 결과 말뭉치 오류 정제가 말뭉치의 신뢰도를 향상시킬 수 있음을 보인다.

  • PDF

Detecting errors on Korean POS tagged corpus using GMM (GMM을 이용한 품사 부착 말뭉치의 오류 탐지)

  • Choi, Min-Seok;Kim, Chang-Hyun;Cheon, Min-Ah;Park, Ho-Min;Yoon, Ho;Namgoong, Young;Kim, Jae-Kyun;Kim, Jae-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.246-251
    • /
    • 2019
  • 품사 부착 말뭉치란 문장에 포함된 각 단어에 품사 표지를 부착한 말뭉치를 말한다. 이런 말뭉치에는 다양한 형태의 오류들이 포함되어 있으며, 오류가 포함된 말뭉치를 학습 자료로 사용하는 자연언어처리 시스템의 좋은 성능을 기대할 수 없다. 따라서 말뭉치의 일관성이나 정확도는 자연언어처리 시스템의 성능에 많은 영향을 준다. 하지만 말뭉치 구축 과정에서 작업자의 실수가 발생하고 여러 작업자가 작업을 수행하다 보니 일관성을 유지하기가 쉽지 않다. 본 논문에서는 이러한 문제를 해결하기 위해서 GMM을 이용한 군집화를 수행하여 오류 후보를 추출한다. 이를 통해서 말뭉치 구축 과정에서 작업자의 실수를 방지하고 일관성을 유지하고자 한다. 세종품사부착 말뭉치를 대상으로 임의로 오류를 유발시켜 실험한 결과, 재현율 84.74%의 성능으로 오류를 탐지하였다. 향후에 좀 더 높은 재현율을 위해서 자질 확장이나 회귀 분석 방법 등을 추진할 계획이다.

  • PDF

Detecting and correcting errors in Korean POS-tagged corpora (한국어 품사 부착 말뭉치의 오류 검출 및 수정)

  • Choi, Myung-Gil;Seo, Hyung-Won;Kwon, Hong-Seok;Kim, Jae-Hoon
    • Journal of Advanced Marine Engineering and Technology
    • /
    • v.37 no.2
    • /
    • pp.227-235
    • /
    • 2013
  • The quality of the part-of-speech (POS) annotation in a corpus plays an important role in developing POS taggers. There, however, are several kinds of errors in Korean POS-tagged corpora like Sejong Corpus. Such errors are likely to be various like annotation errors, spelling errors, insertion and/or deletion of unexpected characters. In this paper, we propose a method for detecting annotation errors using error patterns, and also develop a tool for effectively correcting them. Overall, based on the proposed method, we have hand-corrected annotation errors in Sejong POS Tagged Corpus using the developed tool. As the result, it is faster at least 9 times when compared without using any tools. Therefore we have observed that the proposed method is effective for correcting annotation errors in POS-tagged corpus.

Detecting Errors in POS-Tagged Corpus on XGBoost and Cross Validation (XGBoost와 교차검증을 이용한 품사부착말뭉치에서의 오류 탐지)

  • Choi, Min-Seok;Kim, Chang-Hyun;Park, Ho-Min;Cheon, Min-Ah;Yoon, Ho;Namgoong, Young;Kim, Jae-Kyun;Kim, Jae-Hoon
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.9 no.7
    • /
    • pp.221-228
    • /
    • 2020
  • Part-of-Speech (POS) tagged corpus is a collection of electronic text in which each word is annotated with a tag as the corresponding POS and is widely used for various training data for natural language processing. The training data generally assumes that there are no errors, but in reality they include various types of errors, which cause performance degradation of systems trained using the data. To alleviate this problem, we propose a novel method for detecting errors in the existing POS tagged corpus using the classifier of XGBoost and cross-validation as evaluation techniques. We first train a classifier of a POS tagger using the POS-tagged corpus with some errors and then detect errors from the POS-tagged corpus using cross-validation, but the classifier cannot detect errors because there is no training data for detecting POS tagged errors. We thus detect errors by comparing the outputs (probabilities of POS) of the classifier, adjusting hyperparameters. The hyperparameters is estimated by a small scale error-tagged corpus, in which text is sampled from a POS-tagged corpus and which is marked up POS errors by experts. In this paper, we use recall and precision as evaluation metrics which are widely used in information retrieval. We have shown that the proposed method is valid by comparing two distributions of the sample (the error-tagged corpus) and the population (the POS-tagged corpus) because all detected errors cannot be checked. In the near future, we will apply the proposed method to a dependency tree-tagged corpus and a semantic role tagged corpus.

Part-of-speech Tagged Corpus Construction for ETRI Standardization (표준안에 따른 품사 부착 말뭉치 구축)

  • Lee, Hyun-A;Lee, Won-Il;Lim, Sun-Suk;Her, Eun-Kyung;Lee, Jae-Sung;Cha, Keon-Hoe;Park, Jay-Duke
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10d
    • /
    • pp.40-43
    • /
    • 1999
  • 본 논문에서는 한국전자통신 연구원 지식정보 연구부에서 제안하는 자연어 정보처리 기술 표준안을 적용하여 품사 부착 말뭉치를 구축하는 과정에서 논란의 여지가 있었던 대표적인 사항들에 대해 기술한다. 아울러 ETRI 표준안이 도출된 원칙과 취지 등을 품사 부착 말뭉치 구축과 관련하여 설명하고, 현재의 ETRI 표준안이 앞으로 어떤 식으로 개선되어야 할 지에 대해 제안한다.

  • PDF

Korean Part-of-Speech Tagging using Automatically Acquired Lexical Information (어휘 정보의 자동 추출과 이를 이용한 한국어 품사 태깅)

  • Kang, In-Ho;Kim, Do-Wan;Lee, Sin-Mok;Kim, Gil-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10d
    • /
    • pp.117-122
    • /
    • 1999
  • 본 연구는 형태소 분석에 필요한 언어 지식과 품사 태깅에 필요한 확률 정보를 별도의 언어 지식 추가 없이 학습 말뭉치를 통해서 얻어내는 방법을 제안한다. 먼저 품사 부착된 학습 말뭉치로부터 형태소 사전과 결합 정보를 추출한다. 그리고 자주 발생하는 어절 및 해석상 모호성이 많은 어절에 대해서는 학습 말뭉치에서 발견된 형태소 분석 결과를 저장하여 형태소 분석에 소요되는 시간과 형태소 분석의 정확률을 높인다. 또한 미등록어의 많은 부분을 차지하는 인명, 지명, 조직명에 대해서는 정보 추출 분야에서 사용하는 고유 명사 분류법으로 해결한다. 품사 태깅을 위해서는 품사열 정보와 품사열 정보로는 해결할 수 없는 경우를 위한 어휘 정보를 학습 말뭉치에서 추출한다. 품사열 정보와 어휘 정보는 정형화 과정을 거쳐 최대 엔트로피 모델의 자질로 사용되어 품사 태깅 시스템을 위한 확률 분포를 구성한다. 본 연구에서 제안하는 방법은 학습 말뭉치를 기반으로 한다는 특성에 의해 다양한 영역에 사용하기 쉽다. 또한 어휘 정보로 품사 문맥 정보를 보완하기 때문에 품사 분류 체계와 형태소 해석 규칙에 영향을 적게 받는다는 장점을 가진다. MATEC '99 데이터 실험 결과 형태소 단위로 94%의 재현률과 93%의 정확률을 얻을 수 있었다.

  • PDF

Korean Head-Tail POS-Tagger by using Transformer (Transformer를 이용한 한국어 Head-Tail 품사 태거)

  • Kim, Jung-Min;Suh, Hyun-Jae;Kang, Seung-Shik
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.544-547
    • /
    • 2021
  • 한국어의 품사 태깅 문제는 입력 어절의 형태소 분석 후보들로부터 통계적으로 적절한 품사 태그를 가지는 후보들을 찾는 방식으로 해결하여 왔다. 어절을 형태소 단위로 분리하고 품사를 부착하는 기존의 방식은 품사태그 정보를 딥러닝 feature로 사용할 때 문장의 의미를 이해하는데 복잡도를 증가시키는 요인이 된다. 본 연구에서는 품사 태깅 문제를 단순화 하여 한 어절을 Head와 Tail이라는 두 가지 유형의 형태소 토큰으로 분리하여 Head와 Tail에 대해 품사를 부착한다. Head-Tail 품사 태깅 방법을 Sequence-to-Sequence 문제로 정의하여 Transformer를 이용한 Head-Tail 품사 태거를 설계하고 구현하였다. 학습데이터로는 KCC150 말뭉치의 품사 태깅 말뭉치 중에서 788만 문장을 사용하고, 실험 데이터로는 10만 문장을 사용하였다. 실험 결과로 토큰 정확도는 99.75%, 태그 정확도는 99.39%, 토큰-태그 정확도는 99.31%로 나타났다.

  • PDF

Developing an Error Correction Tool for Sejong POS Tagged Corpus (세종 형태분석 말뭉치의 오류 수정 도구 개발)

  • Choi, Myung-Gil;Nam, Yoo-Rim;Seo, Hyung-Won;Jeon, Kil-Ho;Kim, Jae-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2011.10a
    • /
    • pp.114-116
    • /
    • 2011
  • 한국어 정보처리에서 널리 사용되는 세종 형태분석 말뭉치는 품사정보와 문장정보 등 다양한 한국어 정보를 포함하고 있다. 이 말뭉치는 방대한 양의 정보들로 구축되었지만 많은 오류 또한 포함되어 있다. 예를 들면 철자 오류, 띄어쓰기 오류, 그리고 품사부착 오류 등이 있다. 하지만 세종말뭉치와 같이 대용량 말뭉치의 오류를 수정하는 것은 많은 인력과 시간이 필요하며 일관성 있게 오류를 수정하는 것은 쉽지 않다. 따라서 본 논문에서는 세종 형태분석 말뭉치에 포함된 오류를 빠르고 일관성 있게 수정하기 위한 오류 수정 도구를 구현하였다. 본 논문에서 수정 대상이 되는 오류는 어절과 형태소 분석 결과의 불일치에 관한 오류만 대상으로 한다. 이를 위해 세종 형태분석 말뭉치를 데이터베이스로 재구축하였으며, 본래의 어절과 품사가 부착된 형태소의 자모를 각각 분리하여 두 자모의 차이점을 분석하여 오류 후보를 선정한다. 오류 후보에서 동일한 오류 패턴을 갖는 모든 오류 후보에 대하여 동일한 방법으로 일관성 있고 빠르게 수정할 수 있다.

  • PDF

Parts-Of-Speech Tagging System Using Grammar Rule and Eojeol Relativity (문법 규칙과 어절 상관도를 이용한 품사 태깅 시스템)

  • Do, Mi-Sook;Choe, Ho-Seop;Ock, Cheol-Young
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2003.11a
    • /
    • pp.481-484
    • /
    • 2003
  • 본 논문에서는 문법 규칙과 어절 상관도를 이용한 품사 태깅 시스템을 제안한다. 원시 말뭉치와 품사태그 부착 말뭉치에서 중의 어절(ambiguity eojeol)의 앞뒤 어휘와 품사 정보를 파악하여 문법 규칙을 마련하였으며, 한국어의 품사와 문장성분적 요소를 고려한 7개의 어절 태그를 설정하여 이 어절 태그간의 확률값을 이용해 어절간의 상관도를 구하였다. 이러한 방법들을 이용하여 품사 태깅을 실험한 결과, 150 만 어절의 학습 말뭉치와 3 만 어절의 실험 말뭉치에서 각각 평균 92%와 91%의 정확률을 보였다.

  • PDF

TagBench: a Tool for Building Large Corpora (TagBench: 대용량 말뭉치 구축을 위한 언어 정보 부착 도구)

  • Seo, Hyeong-Won;Choi, Myung-Kil;Nam, Yoo-Rim;Kwon, Hong-Beok;Kim, Jae-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2012.10a
    • /
    • pp.126-131
    • /
    • 2012
  • 본 논문은 자연언어처리에 필요한 여러 언어 정보를 구축하기 위한 도구를 설계하고 구현하였다. 본 논문에서 제안한 부착 도구는 기본적으로 형태소, 구묶음, 기반구의 품사 정보를 부착하고 추가적으로 명사에 대해서는 각 요소의 의미정보를 부착한다. 또한 형태소와 구묶음의 경우에는 사전형 정보를 부착함으로써 사전 구축 등 보다 폭넓게 사용될 수 있도록 하였다. 언어정보 부착에 있어서 가장 어려운 점은 어떻게 여러 작업자들이 일관성을 유지하느냐이다. 이를 위해 본 논문에서는 각 작업자들이 다른 작업자들의 부착 결과를 쉽게 참조하여 보다 손쉽게 수정할 수 있도록 설계되었다. 또한 기존에 잘못 부착된 정보를 발견하면 이를 쉽게 고칠 수 있도록 하였으며 또한 유사한 오류를 검색할 수 있도록 하여 쉽게 수정할 수 있도록 하였다.

  • PDF