• Title/Summary/Keyword: 품사 부착 말뭉치

Search Result 52, Processing Time 0.027 seconds

A Parser for Noun's Definition in Korean Dictionary (국어사전의 명사 뜻풀이말 Parser)

  • Hur, Jeong;Kim, Jun-Soo;Lee, Soo-Kwang;Ok, Chul-young
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.04b
    • /
    • pp.321-323
    • /
    • 2000
  • 국어 사전은 자연 언어 처리에서 필요로 하는 많은 정보를 구조적으로 포함하고 있으므로, 사전으로부터 다양한 언어 지식을 자동으로 획득할 수 있는 방법이 필요하다. 본 연구는 이러한 자동 지식 획득을 위한 기본적인 도구로서 국어 사전의 뜻풀이말 파서를 구현하는 것을 목적으로 한다. 이를 위해서 우선 국어 사전의 뜻풀이말을 대상으로 일정한 수준의 구문 부착 말뭉치를 구축하고, 이 말뭉치로부터 통계적인 방법에 기반하여 문법 규칙과 확률을 자동으로 추출한다. 본 연구는 이를 응용한 확률적 차트 파서를 구현하는 것이다. 그 결과 고려대 태거보다 11.61%의 정확률 향상을 보였는데, 이로써 구문 구조 정보가 품사 태깅에도 유용함을 알 수 있었다.

  • PDF

Semi-CRF or Linear-chain CRF? A Comparative Study of Joint Models for Korean Morphological Analysis and POS Tagging (Semi-CRF or Linear-Chain CRF? 한국어 형태소 분할 및 품사 태깅을 위한 결합 모델 비교)

  • Na, Seung-Hoon;Kim, Chang-Hyun;Kim, Young-Kil
    • Annual Conference on Human and Language Technology
    • /
    • 2013.10a
    • /
    • pp.9-12
    • /
    • 2013
  • 본 논문에서는 한국어 형태소 분할 및 품사 태깅 방법을 위한 결합 모델로 Semi-CRF와 Linear-chain CRF에 대한 초기 비교 실험을 수행한다. Linear-chain방법은 출력 레이블을 형태소 분할 정보와 품사 태그를 조합함으로써 결합을 시도하는 방식이고, Semi-CRF는 출력의 구조가 분할과 태깅 정보를 동시에 포함하도록 표현함으로써, 디코딩 과정에서 분할과 태깅을 동시에 수행하는 방법이다. Sejong품사 부착말뭉치에서 비교결과 Linear-chain방법이 Semi-CRF방법보다 우수한 성능을 보여주었다.

  • PDF

Translation Dictionary Tuning System By using of Auto-Evaluation Method (자동 평가 방법을 이용한 번역 지식 튜닝 시스템)

  • Park, Eun-Jin;Jin, Yun;Kwon, Oh-Woog;Wu, Ying-Shun;Kim, Young-Kil
    • Annual Conference on Human and Language Technology
    • /
    • 2011.10a
    • /
    • pp.147-150
    • /
    • 2011
  • 본 논문에서는 병렬 말뭉치에서 오류가 있을 것으로 추정되는 문장을 자동 추출하여, 다수의 번역 사전 구축 작업자가 자동 번역시스템을 직접 사용하면서 번역 사전을 튜닝하는 방법에 대하여 제안하고자 한다. 작업자는 병렬 말뭉치의 대역문을 이용하여 자동 번역 결과의 BLEU를 측정하고, 사전 수정 전과 후의 BLEU 차이를 정량적으로 제시해 줌으로써 양질의 번역 사전을 구축하도록 하였다. 대량의 번역 사전이 이미 구축된 자동 번역시스템에서 추가적인 성능향상을 위해 대량의 말뭉치에서 미등록어, 번역패턴 등을 추출하여, 대량으로 구축하는 기존 방법에 비해 사전 구축 부작용이 적으며, 자동번역 성능향상에 더 기여하는 것을 실험을 통해 증명하였다. 이를 위해 본 논문에서는 중한 자동 번역시스템을 대상으로, 중국어 문장 2,193문장에 대해, 사전 구축 작업자 2명이 2주간 튜닝한 결과와 15만 말뭉치에서 추출한 미등록어 후보 2만 엔트리를 3명의 사전 구축 작업자가 미등록어 선별, 품사 및 대역어 부착한 결과 7,200 엔트리를 대상으로 자동평가를 실시하였다. 실험결과 미등록어 추가에 의한 BLEU 성능향상은 +3인데 반해, 약 2,000문장 튜닝 후 BLEU를 +12 향상시켰다.

  • PDF

A New Korean Morphological Analyzer using Eojeol Pattern Dictionary (어절패턴 사전을 이용한 새로운 한국어 형태소 분석기)

  • Hong, Jeen-Pyo;Cha, Jeong-Won
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2008.06c
    • /
    • pp.279-284
    • /
    • 2008
  • 본 연구에서는 어절패턴을 이용하는 새로운 방식의 한국어 형태소 분석기 KGuru-MA에 대해서 설명한다. KGuru-MA는 품사 부착 말뭉치에서 개방어를 생략하여 어절 패턴을 반자동으로 학습하여 어절 패턴 사전과 형태소 확률 정보 사전을 구성한 후, 이 사전을 이용하여 형태소를 분석한다. 본 형태소 분석기는 어절패턴을 사용하여 형태소 분석하기 때문에 기존 형태소 분석기에 존재하는 접속검사 과정이 생략된다. 또한, 형태소 분석 과정이 기존의 형태소 분석기에 비해 단순하여 기초 자연언어 처리 시스템이 가지는 강건성을 보장한다. 본 연구는 "21세기 세종기획 3차년도 말뭉치"를 이용한 실험 결과, 기존 형태소 분석기 못지 않은 성능을 보였다.

  • PDF

Korean Morpheme Restoration and Segmentation based on Transformer (트랜스포머 기반 한국어 형태소 원형복원 및 분리)

  • Hyeong Jin Shin;Jeongyeon Park;Jae Sung Lee
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.403-406
    • /
    • 2022
  • 최근 한국어 언어 모델이나 단어 벡터 생성 등에서는 효과적인 토큰을 만들기 위해 품사 태그 없이 형태소 열만을 사용하고 있다. 본 논문에서는 입력 문장에 대해 품사 태그열 생성없이 형태소 열만을 직접 출력하는 효율적인 모델을 제안한다. 특히, 자연어처리에서 적합한 트랜스포머를 활용하기 위해, 입력 음절과 원형 복원된 형태소 조각이 1:1로 대응되는 새로운 형태소 태깅 방법을 제안한다. 세종 품사 부착 말뭉치를 대상으로 평가해 본 결과 공개 배포되어 있는 기존 형태소 분석 모델들보다 형태소 단위 F1 기준으로 약 7%에서 14% 포인트 높은 성능을 보였다.

  • PDF

Automatic Construction of Korean Two-level Lexicon using Lexical and Morphological Information (어휘 및 형태 정보를 이용한 한국어 Two-level 어휘사전 자동 구축)

  • Kim, Bogyum;Lee, Jae Sung
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.2 no.12
    • /
    • pp.865-872
    • /
    • 2013
  • Two-level morphology analysis method is one of rule-based morphological analysis method. This approach handles morphological transformation using rules and analyzes words with morpheme connection information in a lexicon. It is independent of language and Korean Two-level system was also developed. But, it was limited in practical use, because of using very small set of lexicon built manually. And it has also a over-generation problem. In this paper, we propose an automatic construction method of Korean Two-level lexicon for PC-KIMMO from morpheme tagged corpus. We also propose a method to solve over-generation problem using lexical information and sub-tags. The experiment showed that the proposed method reduced over-generation by 68% compared with the previous method, and the performance increased from 39% to 65% in f-measure.

Korean Noun Extraction Using Exclusive Segmentation Information and Post-noun morpheme sequences (분석 배제 정보와 후절어를 이용한 한국어 명사추출)

  • 이도길;류원호;임해창
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2000.06a
    • /
    • pp.19-25
    • /
    • 2000
  • 명사 추출기는 정보검색, 문서분류, 문서요약, 정보추출 등의 분야에서 사용되고 있으며, 정확한 명사 추출과 빠른 색인 속도는 이들 시스템 성능과 밀접한 관계가 있다. 한국어에서 명사를 추출하기 위해서는 형태소 분석이 필요한데, 본 논문에서는 대량의 품사부착된 말뭉치로부터 추출한 분석배제 정보와 후절어를 이용함으로써 형태소 분석을 생략하거나 보다 단순한 처리에 의해 명사를 추출하는 방법을 제안한다. 실험결과에 의하면, 제안된 방법에 의한 명사추출기는 비교적 높은 정확률과 재현율을 나타내며, 빠른 속도를 보였다.

  • PDF

Language Model Smoothing for Korean Morpheme Recovery (한국어 형태소 복원을 위한 언어모델의 평탄화(smoothing))

  • Lee, Daniel;Kim, Bo-Gyum;Lee, Jae-Sung
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2012.06b
    • /
    • pp.309-311
    • /
    • 2012
  • 형태소 복원은 형태소 분석의 한 단계로 문장에 나타난 형태소의 변형 현상을 분석하여 규칙화하고 이를 이용하여 형태소 원형을 복원하는 것이다. 본 논문에서는 형태소 품사 부착 말뭉치로부터 다양한 형태소 변화 규칙을 학습하여 효과적으로 형태소 원형을 복원하기 위한 계산 방법을 비교한다. 이를 위해 계산 모델, 한글 코드, 학습 자료를 다르게 하여 학습하고 그에 따른 성능을 비교 분석한다.

Morpheme Recovery Based on Naïve Bayes Model (NB 모델을 이용한 형태소 복원)

  • Kim, Jae-Hoon;Jeon, Kil-Ho
    • The KIPS Transactions:PartB
    • /
    • v.19B no.3
    • /
    • pp.195-200
    • /
    • 2012
  • In Korean, spelling change in various forms must be recovered into base forms in morphological analysis as well as part-of-speech (POS) tagging is difficult without morphological analysis because Korean is agglutinative. This is one of notorious problems in Korean morphological analysis and has been solved by morpheme recovery rules, which generate morphological ambiguity resolved by POS tagging. In this paper, we propose a morpheme recovery scheme based on machine learning methods like Na$\ddot{i}$ve Bayes models. Input features of the models are the surrounding context of the syllable which the spelling change is occurred and categories of the models are the recovered syllables. The POS tagging system with the proposed model has demonstrated the $F_1$-score of 97.5% for the ETRI tree-tagged corpus. Thus it can be decided that the proposed model is very useful to handle morpheme recovery in Korean.

Korean Composed Noun Phrase Chunking Using CRF (CRF를 이용한 한국어 문장의 복합명사 상당어구 묶음)

  • Park, Byul;Seon, Choong-Nyoung;Seo, Jung-Yun
    • Annual Conference on Human and Language Technology
    • /
    • 2011.10a
    • /
    • pp.90-93
    • /
    • 2011
  • 구분분석은 문장을 분석하여 문장의 구문 구조를 밝히는 작업으로, 문장이 길어질수록 문장의 중의성이 높아져 구문분석 복잡도를 증사시키고 성능이 떨어진다. 구문분석의 복잡도를 감소시키기 위한 방법 중 하나로 구묶음을 하는데 본 논문에서는 하나의 명사처럼 쓰일 수 있는 둘 이상의 연속된 명사, 대명사, 수사, 숫자와 이를 수식하는 관형사, 접두사 및 접미사를 묶어서 복합명사 상당어구라고 정의하고 복합명사 상당어구 인식 시스템을 제안한다. 본 논문은 복합명사 상당어구 인식을 기계학습을 이용한 태그 부착 문제로 간주하였다. 문장 내 띄어쓰기, 어절의 어휘 정보, 어절 내 형태소들의 품사 정보와 품사-어휘 정보를 함께 자질로 사용하였다. 실험을 위하여 세종 구문분석 말뭉치 7만여 문장을 학습과 평가에 사용했으며, 실험결과는 95.97%의 정확률과 95.11%의 재현율, 95.54%의 $F_1$-평가치를 보였고, 구문분석의 전처리로써 사용하였을 때 구문분석의 성능과 속도가 향상됨을 보였다.

  • PDF