• Title/Summary/Keyword: 품사태깅

Search Result 152, Processing Time 0.022 seconds

Break Strength Prediction Using Maximum a Posterior Probability (MAP 확률을 이용한 끊어 읽기 강도 예측)

  • Kim Sanghun;Park Jun;Lee Youngjik
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.75-78
    • /
    • 2000
  • 본 논문은 자연스러운 합성음 생성을 위한 끊어 읽기 강도 예측에 관한 것으로, 문장에 대한 품사열이 주어졌을 때 Posteriori 확률을 최대화하는 끊어 읽기 강도를 비터비 디코딩으로 예측한다. 훈련용 데이터는 여성화자 1인이 발성한 2,100 문장이며, 음성 데이터로부터 휴지길이(pause)에 따라 끊어 읽기 강도를 2단계로 할당하고, 텍스트에서는 30개의 품사 태그 심볼을 이용하여 형태소분석 및 태깅을 수행하였다. 관측확률은 3개 연속하는 품사열이 발생할 확률로 하고 끊어 읽기 강도 천이확률은 bigram으로 했을 때, cross validation 방법으로 성능 평가를 수행하였다 평가결과, 훈련데이타에 대해서는 $89.7\%$, 테스트 데이터에 대해서는 $84.9\%$의 예측정확률을 보였다.

  • PDF

Parser as An Analysis Finisher (분석의 최종 판단자로서의 구문 분석기)

  • Yuh, Sang Hwa
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2004.05a
    • /
    • pp.677-680
    • /
    • 2004
  • 통상적인 언어 처리의 분석 과정은 전처리, 형태소분석, 품사 태깅, 복합 단위 인식, 구문 분석, 그리고 의미 분석 등의 여러 단계로 이루어진다. 분석의 매 단계에서 중의성(Ambiguity)가 발생하며, 이를 해결하기 위한 노력으로 구문 분석 이전의 분석 단계에서도 정확률(Precision)을 높이기 위해, 어휘(Lexical) 정보, 품사정보 그리고 구문 정보 등을 이용한다. 각 단계에서 고급 정보로서의 구문 정보 이용은 구문분석의 중복성과 분석 지식의 중복성을 야기한다. 또한, 기존의 처리 흐름에서는 각 분석 단계에서의 결과는 최종적인 것으로, 이로 인해 다음 분석 단계에 분석 오류를 전파한다. 본 논문에서는 구문 분석기를 분석 결과의 최종 판단자로 이용할 것을 제안한다. 즉, 구문 분석 전단계의 모든 분석 정보는 구문 분석기에 제공되고, 구문분석기는 상향식 구문분석을 수행하면서 이들 정보들로부터 최종의 그리고 최적의 분석 후보를 결정한다. 이를 위해 구문분석기는 한 문장 단위를 입력 받는 기존의 제한을 따르지 않는다. 제안된 방법은 구문분석 앞 단계에서의 잘못된 정보 제공(예: 문장 분리 오류, 품사 오류, 복합단위 인식 오류 등)으로부터 자유로우며, 이를 통해 분석 실패의 가능성을 최대로 줄인다.

  • PDF

Korean Morpheme Restoration and Segmentation based on Transformer (트랜스포머 기반 한국어 형태소 원형복원 및 분리)

  • Hyeong Jin Shin;Jeongyeon Park;Jae Sung Lee
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.403-406
    • /
    • 2022
  • 최근 한국어 언어 모델이나 단어 벡터 생성 등에서는 효과적인 토큰을 만들기 위해 품사 태그 없이 형태소 열만을 사용하고 있다. 본 논문에서는 입력 문장에 대해 품사 태그열 생성없이 형태소 열만을 직접 출력하는 효율적인 모델을 제안한다. 특히, 자연어처리에서 적합한 트랜스포머를 활용하기 위해, 입력 음절과 원형 복원된 형태소 조각이 1:1로 대응되는 새로운 형태소 태깅 방법을 제안한다. 세종 품사 부착 말뭉치를 대상으로 평가해 본 결과 공개 배포되어 있는 기존 형태소 분석 모델들보다 형태소 단위 F1 기준으로 약 7%에서 14% 포인트 높은 성능을 보였다.

  • PDF

Toward Automatic Syntactic Tagging (구문태깅의 자동화와 복합명사 인식)

  • Seo, Kwang-Jun;Seo, Gwang-Jun;Kwon, Oh-Woog;Jung, Sung-Young;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 1994.11a
    • /
    • pp.355-362
    • /
    • 1994
  • 언어처리에 통계 확률적인 방법이 도입되면서 현실적으로 상당한 진전이 있었지만 한국어의 경우에는 대부분 형태소 해석과 품사 태깅에 그치고 있다. 본 논문에서는 구문분석 수준에서의 통계적인 한국어 분석에 쓰일 자료 구축으로서의 구문 태깅의 방법론과 그 자동화에 대해 보고한다.

  • PDF

Procedural Entity Extraction for Procedural Knowledge on Medline Abstracts (의료 문헌에서의 절차적 지식 추출을 위한 단위 절차 추출 연구)

  • Song, Sa-Kwang;Oh, Heung-Seon;Choi, Yoon-Jung;Jang, He-Ju;Myaeng, Sung-Hyon;Choi, Sung-Pil;Choi, Yun-Soo
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2011.06a
    • /
    • pp.154-157
    • /
    • 2011
  • 본 연구는 2인의 전문의와 함께 의료 문헌의 초록을 분석하여 의료문서에서의 절차적 지식을 모델링하고 텍스트 마이닝 기법을 적용하여 절차적 지식을 추출하는 방법론에 대해 기술한다. 절차적 지식은 목적과 해법의 묶음으로, 해법은 다시 단위 절차 지식의 네트워크로 정의 하였고, 목적과 해법 정보 추출과 단위 절차 지식의 구성요소인 대상/행위/방법 개체를 인식하기 위해, 품사태깅, 구문분석, 술어-논항구조(Predicate-Argument Structure), 온톨로지 용어 매핑 정보 등에 기반한 기계학습 방법을 사용하였다. 실험을 위해 전문의와 함께 위함과 척추질환에 대한 1309 문서에 절차적 지식 태깅을 수행하였고, 이 문서 집합을 기반으로 목적/해법 추출 작업과 단위 절차 지식(대상질병/행위/적용방법) 추출 실험을 수행하여, 각각 82% 와 63%의 F-measure 값을 얻을 수 있었다.

Part-Of-Speech Tagging and the Recognition of the Korean Unknown-words Based on Machine Learning (기계학습에 기반한 한국어 미등록 형태소 인식 및 품사 태깅)

  • Choi, Maeng-Sik;Kim, Hark-Soo
    • The KIPS Transactions:PartB
    • /
    • v.18B no.1
    • /
    • pp.45-50
    • /
    • 2011
  • Unknown morpheme errors in Korean morphological analysis are divided into two types: The one is the errors that a morphological analyzer entirely fails to return any morpheme sequences, and the other is the errors that a morphological analyzer returns incorrect combinations of known morphemes. Most previous unknown morpheme estimation techniques have been focused on only the former errors. This paper proposes a unknown morpheme estimation method which can handle both of the unknown morpheme errors. The proposed method detects Eojeols (Korean spacing units) that may include unknown morpheme errors using SVM (Support Vector Machine). Then, using CRFs (Conditional Random Fields), it segments morphemes from the detected Eojeols and annotates the segmented morphemes with new POS tags. In the experiments, the proposed method outperformed the conventional method based on the longest matching of functional words. Based on the experimental results, we knew that the second type errors should be dealt with in order to increase the performance of Korean morphological analysis.

Inducing Subsumption Conditions for Morphological Ambiguity Reduction (형태소의 모호성 축소를 위한 포섭조건의 자동 추론)

  • Kim, Jae-Hoon;Jang, Byung-Gyu;Kim, Gil-Chang;Seo, Jung-Yun
    • Annual Conference on Human and Language Technology
    • /
    • 1995.10a
    • /
    • pp.175-180
    • /
    • 1995
  • 한국어는 교착어이기 때문에 형태소 해석은 자연언어 처리에서 매우 중요한 역할을 담당한다. 한국어 형태소 해석에서 주로 사용되는 정보는 두 형태소의 결합 가능 유무를 나타내는 접속정보이다. 이 접속정보는 단순한 품사정보에 의해서 표현되기 때문에 형태소 해석기의 과잉 해석의 원인이 된다. 이를 줄이기 위해 언어 지식의 일종인 포섭관계가 제안되었다[5]. 그러나, 포섭관계를 검사하기 위한 포섭조건들은 수작업에 의해서 작성되었다. 수작업으로 작성된 이들 조건들은 일관성 유지하기 어려울 뿐 아니라 완전한 조건들을 구하기도 어렵다. 따라서, 본 논문에서는 이와 같은 문제를 해소하기 위해서 품사 태깅된 말뭉치를 이용해서 포섭조건의 자동 추출방법을 제안한다.

  • PDF

Morphological Analyzer of Yonsei Univ., morany: Morphological Analysis based on Large Lexical Database Extracted from Corpus (연세대 형태소 분석기 morany: 말뭉치로부터 추출한 대량의 어휘 데이터베이스에 기반한 형태소 분석)

  • Yoon, Jun-Tae;Lee, Chung-Hee;Kim, Seon-Ho;Song, Man-Suk
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10d
    • /
    • pp.92-98
    • /
    • 1999
  • 본 논문에서는 연세대학교 컴퓨터과학과에서 연구되어 온 형태소 분석 시스템에 대해 설명한다. 연세대학교 자연 언어 처리 시스템의 기본적인 바탕은 무엇보다도 대량의 말뭉치를 기반으로 하고 있다는 점이다. 예컨대, 형태소 분석 사전은 말뭉치 처리에 의해 재구성 되었으며, 3000만 어절로부터 추출되어 수작업에 의해 다듬어진 어휘 데이터베이스는 형태소 분석 결과의 상당 부분을 제한하여 일차적인 중의성 해결의 역할을 담당한다. 또한 복합어 분석 역시 말뭉치에서 얻어진 사전을 바탕으로 이루어진다. 품사 태깅은 bigram hmm에 기반하고 있으며 어휘 규칙 등에 의한 후처리가 보강되어 있다. 이렇게 구성된 형태소 분석기 및 품사 태거는 구문 분석기와 함께 연결되어 이용되고 있다.

  • PDF

Representation of Local Grammar for Temporal Expression and Analysis of Temporal Phrase with FST (시간 표현에 대한 부분 문법 기술 및 FST를 이용한 시간 구문 분석)

  • Kim, Youn-Gwan;Yoon, Jun-Tae;Song, Man-Suk
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10e
    • /
    • pp.231-236
    • /
    • 1999
  • 시간표현은 문장에서 다른 명사와 결합하여 복합어를 이루는 경우가 있고, 용언과 결합하여 시간 부사의 역할을 하는 경우가 있는데, 이는 구문 분석에 있어서 중의적 해석이 두드러지며, 그 결과 구문 분석의 오류를 빈번히 야기하기도 한다. 본 논문에서는 이러한 시간 관계의 표현을 대량의 말뭉치로부터 획득하고 이들을 부분문법(local grammar)으로 표현한 후, 이것을 FST(Finite State Transducer)를 이용하여 부분 구문분석을 하고자 한다. 이를 위해 5천만 어절의 말뭉치에서 259개의 시간 단어를 추출하였고, 시간 단어들의 의미적 또는 기능적 사용에 의해서 26개의 어휘 범주로 분류하고 각 범주들의 결합관계를 일반화하였다. 실험을 통하여 인식을 위한 시간표현의 결합관계는 최고 97.2%의 정확률을 보였고, 품사태깅에 있어서는 평균 96.8%의 정확률을 보였다. 이는 시간 표현의 결합관계가 부분 구문분석에 있어서 유용한 정보임을 보여준다.

  • PDF