• 제목/요약/키워드: 확률 기반 형태소 분석

검색결과 22건 처리시간 0.028초

띄어쓰기 비종속 품사 태깅 시스템 개발 (Development of POS Tagging System Independent to Word Spacing)

  • 이경일;안태성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2003년도 제15회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.69-72
    • /
    • 2003
  • 본 논문에서는 입력된 한국어 문자열로부터 형태소를 분석하고, 품사를 태깅하는 방법에 있어 개선된 통계적 모델을 제안하고, 이에 기반한 띄어쓰기 비종속 형태소 분석 및 태깅 시스템의 개발과 성능 평가에 대한 결과를 소개하고 있다. 제안된 통계 기반품사 태깅 시스템은 입력된 문자열로부터 음절의 띄어쓰기 확률값을 계산하여 유사어절을 생성하고, 유사어절 단위로 사용자 띄어쓰기와 상관없이 형태소 후보 리스트를 생성하며, 인접한 후보 형태소들의 접속 확률 계산에 있어 어절 간 접속 확률과 어절 내 접속 확률을 모두 사용함으로, 최적의 형태소 리스트를 결정하는 모델을 사용하고 있다. 특히, 형태소들의 접속 확률 계산 시 어절 간 접속 확률과 어절 내 접속 확률의 결합 비율이 음절의 띄어쓰기 확률 값과 사용자의 띄어쓰기 여부에 따라 자동으로 조절되는 특징을 가지고 있으며, 이를 통해 극단적으로 띄어 쓰거나 붙여 쓴 문장에 대해서도 평균 90%수준의 품사 태깅 성능을 달성할 수 있었다.

  • PDF

확률 기반 미등록 단어 분리 및 태깅 (Probabilistic Segmentation and Tagging of Unknown Words)

  • 김보겸;이재성
    • 정보과학회 논문지
    • /
    • 제43권4호
    • /
    • pp.430-436
    • /
    • 2016
  • 형태소 분석시 나타나는 고유명사나 신조어 등의 미등록어에 대한 처리는 다양한 도메인의 문서 처리에 필수적이다. 이 논문에서는 3단계 확률 기반 형태소 분석에서 미등록어를 분리하고 태깅하기 위한 방법을 제시한다. 이 방법은 고유명사나 일반명사와 같은 개방어 뒤에 붙는 다양한 접미사를 분석하여 미등록 개방어를 추정할 수 있도록 했다. 이를 위해 형태소 품사 부착 말뭉치에서 자동으로 접미사 패턴을 학습하고, 확률 기반 형태소 분석에 맞도록 미등록 개방어의 분리 및 태깅 확률을 계산하는 방법을 제시하였다. 실험 결과, 제안한 방법은 새로운 미등록 용어가 많이 나오는 문서에서 미등록어 처리 성능을 크게 향상시켰다.

의사 형태소 단위의 연속 음성 인식 (Pseudo-Morpheme-Based Continuous Speech Recognition)

  • 이경님
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 제15회 음성통신 및 신호처리 워크샵(KSCSP 98 15권1호)
    • /
    • pp.309-314
    • /
    • 1998
  • 언어학적 단위인 형태소의 특성을 유지하면서 음성인식 과정에 적합한 분리 기준의 새로운 디코딩 단위인 의사형태소를 정의하였다. 이러한 필요성을 확인하기 위해 새로이 정의된 37개의 품사 태그를 갖는 의사 형태소를 표제어 단위로 삼아 발음사전 생성과 형태소 해석에 초점을 두고 한국어 연속음성 인식 시스템을 구성하였다. 각 음성신호 구간에 해당되는 의사 형태소가 인식되면 언어모델을 사용하여 구성된 의사 형태소 단위의 상위 5개 문장을 기반으로 시작 시점과 끝 시점, 그리고 확률 값을 가진 의사 형태소 격자를 생성하고, 음성 사전으로부터 태그 정보를 격자에 추가하였다. Tree-trellis 탐색 알고리즘 기반에 의사 형태소 접속정보를 사용하여 음성언어 형태소 해석을 수행하였다. 본 논문에서 제안한 의사 형태소를 문장의디코딩 단위로 사용하였을 경우, 사전의 크기면에서 어절 기반의 사전 entry 수를 현저히 줄일 수 있었으며, 문장 인식률면에서 문자기반 형태소 단위보다 약 20% 이상의 인식률 향상을 얻을 수있었다. 뿐만 아니라 형태소 해석을 수행하기 위해 별도의 분석과정 없이 입력값으로 사용되며, 전반적으로 문자을 구성하는 디코딩 수를 안정화 시킬 수 있었다. 이 결과값은 상위레벨 언어처리를 위한 입력?으로 사용될 뿐만 아니라, 언어 정보를 이용한 후처리 과정을 거쳐 더 나은 인식률 향상을 꾀할 수 있다.

  • PDF

예측 기반 형태소 분석기와 결합 독립 모형 기반 품사 태거 및 고속 명사 추출기 (A Predictive Morphological Analyzer, A Part-of-Speech Tagger Based on Joint Independence Model, and A Fast Noun Extractor)

  • 이상주;박봉래;김진동;류원호;이도길;임해창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회 및 제1회 형태소 분석기 및 품사태거 평가 워크숍
    • /
    • pp.145-150
    • /
    • 1999
  • 본 논문에서는 한국어 자연어 정보처리 기술 표준화를 위한 형태소 분석기 및 품사 태거 평가 대회(MATEC99)에 참여한 고려대학교의 형태소 분석기, 품사 태거, 그리고 명사 추출기를 설명하고 평가 결과를 기술한다. 형태소 분석기는 입력된 어절을 우에서 좌로 분석하며 각 상태에 대한 예측 정보를 활용하여 불필요한 분석 후보에 대한 탐색을 수행하지 않도록 한다. 품사 태거로는 띄어쓰기를 고려한 형태소 품사 2-그램 확률과 띄어쓰기를 고려한 형태소 어휘-품사 3-그램 어휘 확률을 이용하는 결합 독립 모형을 사용한다. 고속 명사 추출기는 고속의 FST 사전과 한국어 특성을 반영한 휴리스틱을 이용한다.

  • PDF

한국어 문장의띄어 쓰기 오류 교정과 최적 형태소 분석을위한 통합 확률 모델 (A Unified Probablistic Model for Correcting Spacing Errors and Improving Accuracy of Morphological Analysis of Korean Sentences)

  • 이동주;연종흠;이상구
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2011년도 한국컴퓨터종합학술대회논문집 Vol.38 No.1(A)
    • /
    • pp.237-240
    • /
    • 2011
  • 띄어쓰기 오류는 한국어로 작성된 글에서 나타나는 가장 흔한 오류 중 하나로 문장의 의미적 모호성과 중의성을 가져온다. 규칙 기반 혹은 통계적접근 방법으로 띄어쓰기 오류를 교정하는다양한 방법이 제시되었으나, 기존의 방법들은 띄어쓰기를 형태소 분석의 전단계로 여기거나 띄어쓰기를 교정하기 위해서 형태소 분석을이용하는 등 각각을 독립된 과정으로 다루어, 한 과정에서 발생하는 오류가 다른 과정으로 전파되도록 하는 문제를 안고 있다. 본 논문에서는 띄어 쓰기와 최적 형태소 분석을 하나의 통합된 문제로 다루어각과정에서 발생할 수 있는 오류가 다른 과정에 영향을 주지 않도록 하고 상호 오류를 보완하여 좀더 정확한 띄어쓰기 오류 교정 및 형태소 분석을 가능하게 하는 확률적 접근 방법을 제시한다.

확률적 언어 모델을 위한 자료 기반 어휘 구축 (A data-driven approach for lexicon selection for probabilistic language model)

  • 류성호;김진형
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2002년도 제14회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.3-8
    • /
    • 2002
  • 한국어를 대상으로 하는 확률적 언어 모델에서는 대부분의 경우 형태소를 기본 어휘로서 사용하고 있다. 그러나, 이러한 모델들은 학습 및 검증을 위하여 사람에 의하여 형태소 분석이 이루어진 말뭉치를 필요로 한다. 또한, 형태소의 자동 분석은 현재 표준말을 중심으로 이루어져 있어 그 적용 분야에도 한계가 있다. 본 논문에서는 한국어의 특징을 고려하여 확률적 언어 모델의 구축에 적합한 어휘의 선택 기준에 대하여 고찰하고, 통계적인 기준을 통하여 확률적 언어 모델의 어휘를 구축하는 방법을 제안한다.

  • PDF

어휘 정보의 자동 추출과 이를 이용한 한국어 품사 태깅 (Korean Part-of-Speech Tagging using Automatically Acquired Lexical Information)

  • 강인호;김도완;이신목;김길창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회 및 제1회 형태소 분석기 및 품사태거 평가 워크숍
    • /
    • pp.117-122
    • /
    • 1999
  • 본 연구는 형태소 분석에 필요한 언어 지식과 품사 태깅에 필요한 확률 정보를 별도의 언어 지식 추가 없이 학습 말뭉치를 통해서 얻어내는 방법을 제안한다. 먼저 품사 부착된 학습 말뭉치로부터 형태소 사전과 결합 정보를 추출한다. 그리고 자주 발생하는 어절 및 해석상 모호성이 많은 어절에 대해서는 학습 말뭉치에서 발견된 형태소 분석 결과를 저장하여 형태소 분석에 소요되는 시간과 형태소 분석의 정확률을 높인다. 또한 미등록어의 많은 부분을 차지하는 인명, 지명, 조직명에 대해서는 정보 추출 분야에서 사용하는 고유 명사 분류법으로 해결한다. 품사 태깅을 위해서는 품사열 정보와 품사열 정보로는 해결할 수 없는 경우를 위한 어휘 정보를 학습 말뭉치에서 추출한다. 품사열 정보와 어휘 정보는 정형화 과정을 거쳐 최대 엔트로피 모델의 자질로 사용되어 품사 태깅 시스템을 위한 확률 분포를 구성한다. 본 연구에서 제안하는 방법은 학습 말뭉치를 기반으로 한다는 특성에 의해 다양한 영역에 사용하기 쉽다. 또한 어휘 정보로 품사 문맥 정보를 보완하기 때문에 품사 분류 체계와 형태소 해석 규칙에 영향을 적게 받는다는 장점을 가진다. MATEC '99 데이터 실험 결과 형태소 단위로 94%의 재현률과 93%의 정확률을 얻을 수 있었다.

  • PDF

음절단위 bigram정보를 이용한 한국어 단어인식모델 (A Statistical Model for Korean Text Segmentation Using Syllable-Level Bigrams)

  • 신중호;박혁로
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.255-260
    • /
    • 1997
  • 일반적으로 한국어는 띄어쓰기 단위인 어절이 형태소 분석의 입력 단위로 쓰이고 있다. 그러나 실제 영역(real domain)에서 사용되는 텍스트에서는 띄어쓰기 오류와 같은 비문법적인 형태도 빈번히 쓰이고 있다. 따라서 형태소 분석 과정에 선행하여 적합한 형태소 분석의 단위를 인식하는 과정이 이루어져야 한다. 본 연구에서는 한국어의 음절 특성을 이용한 형태소분석을 위한 어절 인식 방법을 제안한다. 제안하는 방법은 사전에 기반하지 않고 원형코퍼스(raw corpus)로부터의 필요한 음절 정보 및 어휘정보를 추출하는 방법을 취하므로 오류가 포함된 문장에 대하여 견고한 분석이 가능하고 많은 시간과 노력이 요구되는 사전구축 및 관리 작업을 필요로 하지 않는다는 장점이 있다. 한국어 어절 인식을 위하여 본 논문에서는 세가지 확률 모텔과 동적 프로그래밍에 기반한 인식 알고리즘을 제안한다. 제안하는 모델들을 띄어쓰기 오류문제와 한국어 복합명사 분석 문제에 적용하여 실험한 결과 82-85%정도의 인식 정확도를 보였다.

  • PDF

의미 분석과 형태소 분석을 이용한 핵심어 인식 시스템 (Key-word Recognition System using Signification Analysis and Morphological Analysis)

  • 안찬식;오상엽
    • 한국멀티미디어학회논문지
    • /
    • 제13권11호
    • /
    • pp.1586-1593
    • /
    • 2010
  • 확률적 패턴 매칭과 동적 패턴 매칭의 어휘 인식 오류 보정 방법에서는 핵심어를 기반으로 문장을 의미론적으로 분석하므로 형태론적 변형에 따른 핵심어 분석이 어려운 문제점을 가지고 있다. 이를 해결하기 위해 본 연구에서는 음절 복원 알고리즘에서 형태소 분석을 이용하여 인식된 음소 열을 의미 분석 과정을 통해 음소의 의미를 파악하고 형태론적 분석으로 문장을 복원하여 어휘 오인식률을 감소하였다. 시스템 분석을 위해 음소 유사률과 신뢰도를 이용하여 오류 보정률을 구하였으며, 어휘 인식 과정에서 오류로 판명된 어휘에 대하여 오류 보정을 수행하였다. 에러 패턴 학습을 이용한 방법과 오류 패턴 매칭 기반 방법, 어휘 의미 패턴 기반 방법의 성능 평가 결과 2.0%의 인식 향상률을 보였다.

Sequence-to-sequence 기반 한국어 형태소 분석 및 품사 태깅 (Sequence-to-sequence based Morphological Analysis and Part-Of-Speech Tagging for Korean Language with Convolutional Features)

  • 이건일;이의현;이종혁
    • 정보과학회 논문지
    • /
    • 제44권1호
    • /
    • pp.57-62
    • /
    • 2017
  • 기존의 전통적인 한국어 형태소 분석 및 품사 태깅 방법론은 먼저 형태소 후보들을 생성한 뒤 수많은 조합에서 최적의 확률을 가지는 품사 태깅 결과를 구하는 두 단계를 거치며 추가적으로 형태소의 접속 사전, 기분석 사전 및 원형복원 사전 등을 필요로 한다. 본 연구는 기존의 두 단계 방법론에서 벗어나 심층학습 모델의 일종인 sequence-to-sequence 모델을 이용하여 한국어 형태소 분석 및 품사 태깅을 추가 언어자원에 의존하지 않는 end-to-end 방식으로 접근하였다. 또한 형태소 분석 및 품사 태깅 과정은 어순변화가 일어나지 않는 특수한 시퀀스 변환과정이라는 점을 반영하여 음성인식분야에서 주로 사용되는 합성곱 자질을 이용하였다. 세종말뭉치에 대한 실험결과 합성곱 자질을 사용하지 않을 경우 97.15%의 형태소 단위 f1-score, 95.33%의 어절단위 정확도, 60.62%의 문장단위 정확도를 보여주었고, 합성곱 자질을 사용할 경우 96.91%의 형태소 단위 f1-score, 95.40%의 어절단위 정확도, 60.62%의 문장단위 정확도를 보여주었다.