• Title/Summary/Keyword: 품사태깅

Search Result 152, Processing Time 0.018 seconds

Korean Verb Senses Disambiguation Using Distributional Information from Corpora (분포 정보를 이용한 의미 중의성을 지닌 한국어 동사의 의미 분별)

  • Cho, Jeong-Mi;Kim, Gil-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 1995.10a
    • /
    • pp.56-61
    • /
    • 1995
  • 본 논문에서는 말뭉치로부터의 분포 정보를 이용하여, 의미 중의성을 지닌 한국어 동사의 의미를 분별하고자 한다. 분포 정보란 말뭉치내에서 목적어-서술어 관계에 있는 명사와 동사의 분포를 의미한다. 이 분포 정보는 명사 분포와 동사 분포로 나누어 생각할 수 있는데, 본 논문에서는 이 두가지 분포 정보를 사용함으로써 명사 분포만을 이용하였을 때 나타나는 자료 부족 현상을 등사 분포 정보를 이용하여 보완하였다. 분포 정보간의 유사도 계산은 정보 이론에서 사용하는 상대 엔트로피를 이용한다. 품사가 태깅된 50만 단어의 한국어 말뭉치로부터 분포 정보들을 추출하여 한국어 동사 10개에 대해 실험하였다.

  • PDF

A Study on Segmental Duratio Control for the Kroean TTS (한국어 문음성 변환기의 음운지속시간 제어에 관한 연구)

  • 김인영
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.06c
    • /
    • pp.143-146
    • /
    • 1998
  • 자연스러운 한국어의 음성합성을 위해서는 음운의 지속시간의 제어가 매우 중요하다. 본 연구에서는 POW3848 어절에 대한 음성 데이터에 대해 음운 세그먼트, 음운 라벨링, 품사 태깅을 행한 음성 데이터베이스를 구축하여 한국어 음운의 지속시간을 변화시키는 시간 특징을 통계적으로 분석하였다. 이 시간 특징들 중 변화 폭이 큰 요인들을 제어요소로 각 음운의 고유길이를 최대한 배제하고 단지 음운 발성 환경의 영향에 의한 지속시간 변화만을 고려하는 정규화 지속시간에 대한 회귀트리로 한국어 음운 지속시간을 모델화 하였다. 제안된 음운 지속시간 모델을 실시간 제어 알고리즘으로 구현하여 평가한 결과, 음운 지속시간 예측오차의 88% 정도가 25ms이내 이었고 예측치와 관측치 간의 다중 상관관계수는 0.92 정도로 평가되어, 제안된 모델의 타당성이 입증되었다.

  • PDF

Determination of Mongolian's suffixes based on the object case markers of Korean (한국어 목적격조사의 몽골어 격 어미 결정)

  • Khulan, Setgelkhuu;Shin, Joon-Choul;Ock, Cheol-Young
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.587-590
    • /
    • 2018
  • 한국어 목적격 조사를 몽골어 격 어미로 번역할 때 한국어 목적격 조사가 몽골어의 여러 격 어미로 번역이 될 수 있는데, 기존의 연구들은 한가지 격 어미로만 번역해 정확한 의미를 전달하지 못하는 문제점이 있다. 이런 문제점을 개선하기 위하여 본 논문에서는 한국어 형태소 분석과 동시에 품사 및 동형이의어 태깅 시스템인 유태거(UTagger)를 기반으로 한국어 목적격 조사의 몽골어 격 어미 결정 방법을 제안한다. 제안한 방법의 성능을 검증하기 위하여 한국어기초사전에서 데이터를 추출하고 유태거와 비교 실험하였다. 실험 결과 유태거의 정확률은 72%인데 반해 제안한 방법은 94%로 제안한 방법이 22%p 더 우수한 결과를 보였다.

  • PDF

Improvement of TAKTAG using unknown-word handling (미등록어 추정을 이용한 TAKTAG의 개선)

  • Cha, Jeong-Won;Lee, Won-Il;Lee, Geun-Bae;Lee, Jong-Hyeok
    • Annual Conference on Human and Language Technology
    • /
    • 1996.10a
    • /
    • pp.203-206
    • /
    • 1996
  • 본 논문에서는 음소단위의 bigram과 trigram 정보를 이용하여 어절내에서의 위치와 개수에 관계없이 미등록어를 추정하고, 미등록어용 형태소 패턴 사전을 도입하여 마치 등록어처럼 미등록어를 처리할 수 있는 방법을 제안한다. 제안된 미등록어 추정 모텔은 조사나 어미와 같은 기능어에 의한 간접적인 추정방법이 아닌 미등록어 자체의 추정과 접속정보를 이용한 검사를 동시에 하여 정확도를 높였다. 본 미등록어 추정방법은 기존의 한국어 품사태깅모델인 TAKTAG에 적용하여 미등록어가 포함된 어절에 대해서 83.72%의 성능을 보였다.

  • PDF

Index Extraction Using Syntactic Morpheme (구문형태소를 이용한 색인어 추출)

  • 황이규;이근용;김남수;이용석
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2000.06a
    • /
    • pp.26-30
    • /
    • 2000
  • 문서를 대표하는 단어를 추출하는 색인어 추출은 정보검색 시스템의 질을 좌우한다. 대부분의 색인어 추출 시스템은 명사를 추출하고 있으며, 가능한 모든 명사를 추출하고 있다. 이러한 방법은 불필요한 단어가 그 문장을 대표하는 색인어로 추출될 가능성이 높으며, 이는 정보 검색 시스템의 효율을 저하시킨다. 이를 해결하기 위해 품사 태깅이나 구문 해석 단계 등을 통해 불필요한 후보를 제거할 수 있지만, 태거를 구축하거나 구문 해석을 위해서는 많은 비용과 시간이 필요하다. 본 논문에서는 구문 형태소 단위의 형태소 해석에 기반한 색인어 추출 방법을 제안한다. 구문 형태소는 통사적/의미적으로 강한 공기 관계를 가지면서 문장에서 하나의 통사적 단위나 자질의 단위로 표현되기 때문에 구문 형태소내에 포함된 단어열들은 대부분 색인어가 될 수 없다. 이러한 방법을 이용하여, 형태소 해석 결과를 이용한 색인어 추출에서 발생하는 색인 오류를 제거함으로써 색인기의 성능을 높이는 방법을 제안한다.

  • PDF

Korean Noun Phrase Identification Using Maximum Entropy Method (최대 엔트로피 모델을 이용한 한국어 명사구 추출)

  • 강인호;전수영;김길창
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2000.06a
    • /
    • pp.127-132
    • /
    • 2000
  • 본 논문에서는 격조사의 구문적인 특성을 이용하여, 수식어까지 포함한 명사구 추출 방법을 연구한다. 명사구 판정을 위해 연속적인 형태소열을 문맥정보로 사용하던 기존의 방법과 달리, 명사구의 처음과 끝 그리고 명사구 주변의 형태소를 이용하여 명사구의 수식 부분과 중심 명사를 문맥정보로 사용한다. 다양한 형태의 문맥 정보들은 최대 엔트로피 원리(Maximum Entropy Principle)에 의해 하나의 확률 분포로 결합된다. 본 논문에서 제안하는 명사구 추출 방법은 먼저 구문 트리 태깅된 코퍼스에서 품사열로 표현되는 명사구 문법 규칙을 얻어낸다. 이렇게 얻어낸 명사구 규칙을 이용하여 격조사와 인접한 명사구 후보들을 추출한다. 추출된 각 명사구 후보는 학습 코퍼스에서 얻어낸 확률 분포에 기반하여 명사구로 해석될 확률값을 부여받는다. 이 중 제일 확률값이 높은 것을 선택하는 형태로 각 격조사와 관계있는 명사구를 추출한다. 본 연구에서 제시하는 모델로 시험을 한 결과 평균 4.5개의 구를 포함하는 명사구를 추출할 수 있었다.

  • PDF

English-to-Korean Machine Translation System for Air Force Intelligence : ALKOL (공군 정보 영한 기계번역 시스템 L ALKOL)

  • 이현아;임철수;최명석;강인호;김길창
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2000.06a
    • /
    • pp.315-322
    • /
    • 2000
  • 본 논문에서는 공군 정보 번역을 위한 영한 기계번역 시스템 ALKOL에 대해서 소개한다. ALKOL은 어휘화된 규칙에 기반한 번역 시스템으로, 어휘화된 규칙은 어휘-분석-변환-생성의 네 단계의 정보가 연결된 형태로 사전에 저장된다. 이와 같은 사전 구조에 의해 번역 과정의 효율성을 높일 수 있고, 어휘화된 규칙에 의해 정확하고 자연스러운 번역 결과를 얻을 수 있다. ALKOL의 번역 과정은 형태소 분석, 품사 태깅, 분석 전처리, 구문 분석, 변환, 생성의 단계로 이루어진다. 각 단계에서는 전/후처리를 보강하여 실제 번역 환경에서 나타나는 문제들을 해결하고, 하나 이상의 번역 결과를 출력하여 사용자가 원하는 결과를 선택할 수 있게 한다.

  • PDF

A Parser for Noun's Definition in Korean Dictionary (국어사전의 명사 뜻풀이말 Parser)

  • Hur, Jeong;Kim, Jun-Soo;Lee, Soo-Kwang;Ok, Chul-young
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.04b
    • /
    • pp.321-323
    • /
    • 2000
  • 국어 사전은 자연 언어 처리에서 필요로 하는 많은 정보를 구조적으로 포함하고 있으므로, 사전으로부터 다양한 언어 지식을 자동으로 획득할 수 있는 방법이 필요하다. 본 연구는 이러한 자동 지식 획득을 위한 기본적인 도구로서 국어 사전의 뜻풀이말 파서를 구현하는 것을 목적으로 한다. 이를 위해서 우선 국어 사전의 뜻풀이말을 대상으로 일정한 수준의 구문 부착 말뭉치를 구축하고, 이 말뭉치로부터 통계적인 방법에 기반하여 문법 규칙과 확률을 자동으로 추출한다. 본 연구는 이를 응용한 확률적 차트 파서를 구현하는 것이다. 그 결과 고려대 태거보다 11.61%의 정확률 향상을 보였는데, 이로써 구문 구조 정보가 품사 태깅에도 유용함을 알 수 있었다.

  • PDF

Comparison between Markov Model and Hidden Markov Model for Korean Part-of-Speech and Homograph Tagging (한국어 품사 및 동형이의어 태깅을 위한 마르코프 모델과 은닉 마르코프 모델의 비교)

  • Shin, Joon-Choul;Ock, Cheol-Young
    • Annual Conference on Human and Language Technology
    • /
    • 2013.10a
    • /
    • pp.152-155
    • /
    • 2013
  • 한국어 어절은 많은 동형이의어를 가지고 있기 때문에 주변 어절(또는 문맥)을 보지 않으면 중의성을 해결하기 어렵다. 이런 중의성을 해결하기 위해서 주변 어절 정보를 입력받아 통계적으로 의미를 선택하는 기계학습 알고리즘들이 많이 연구되었으며, 그 중에서 특히 은닉 마르코프 모델을 활용한 연구가 높은 성과를 거두었다. 일반적으로 마르코프 모델만을 기반으로 알고리즘을 구성할 경우 은닉 마르코프 모델 보다는 단순하기 때문에 빠르게 작동하지만 정확률이 낮다. 본 논문은 마르코프 모델을 기반으로 하면서, 부분적으로 은닉 마르코프 모델을 혼합한 알고리즘을 제안한다. 실험 결과 속도는 마르코프 모델과 유사하며, 정확률은 은닉 마르코프 모델에 근접한 것으로 나타났다.

  • PDF

Index Extraction Using Syntactic Morpheme (구문형태소를 이용한 색인어 추출)

  • Hwang, Y.G.;Lee, K.Y.;Kim, N.S.;Lee, Y.S.
    • Annual Conference on Human and Language Technology
    • /
    • 2000.10d
    • /
    • pp.26-30
    • /
    • 2000
  • 문서를 대표하는 단어를 추출하는 색인어 추출은 정보검색 시스템의 질을 좌우한다. 대부분의 색인어 추출 시스템은 명사를 추출하고 있으며, 가능한 모든 명사를 추출하고 있다. 이러한 방법은 불필요한 단어가 그 문장을 대표하는 색인어로 추출될 가능성이 높으며, 이는 정보 검색 시스템의 효율을 저하시킨다. 이를 해결하기 위해 품사 태깅이나 구문 해석 단계 등을 통해 불필요한 후보를 제거할 수 있지만, 태거를 구축하거나 구문 해석을 위해서는 많은 비용과 시간이 필요하다. 본 논문에서는 구문 형태소 단위의 형태소 해석에 기반한 색인어 추출 방법을 제안한다. 구문 형태소는 통사적/의미적으로 강한 공기 관계를 가지면서 문장에서 하나의 통사적 단위나 자질의 단위로 표현되기 때문에 구문 형태소내에 포함된 단어열들은 대부분 색인어가 될 수 없다. 이러한 방법을 이용하여, 형태소 해석 결과를 이용한 색인어 추출에서 발생하는 색인 오류를 제거함으로써 색인기의 성능을 높이는 방법을 제안한다.

  • PDF