• 제목/요약/키워드: Morpheme Recovery

검색결과 6건 처리시간 0.02초

딥 러닝을 이용한 한국어 형태소의 원형 복원 오류 수정 (Error Correction in Korean Morpheme Recovery using Deep Learning)

  • 황현선;이창기
    • 정보과학회 논문지
    • /
    • 제42권11호
    • /
    • pp.1452-1458
    • /
    • 2015
  • 한국어 형태소 분석은 교착어 특성상 난이도가 높은 작업이다. 그 중에서 형태소의 원형 복원 작업은 규칙이나 기분석 사전 정보 등을 활용하는 방법이 주로 연구되었다. 그러나 이러한 방법들은 어휘 수준의 문맥 정보를 보지 못하기 때문에 원형 복원에 한계가 있다. 본 논문에서는 최근 자연어처리에 연구되고 있는 기계학습 방법인 딥 러닝(deep learning)을 사용하여 형태소의 원형 복원 문제의 해결을 시도하였다. 문맥 정보를 보기 위해 단어 표현(word embedding)을 사용하여 기존의 방법들 보다 높은 성능을 보였다. 실험 결과, '들/VV'과 '듣/VV'의 복원 문제에 대해서 97.97%로 기존의 자연어처리에 쓰이는 기계학습 방법 중 하나인 SVM(Support Vector Machine)의 96.22% 보다 1.75% 높은 성능을 보였다.

NB 모델을 이용한 형태소 복원 (Morpheme Recovery Based on Naïve Bayes Model)

  • 김재훈;전길호
    • 정보처리학회논문지B
    • /
    • 제19B권3호
    • /
    • pp.195-200
    • /
    • 2012
  • 한국어는 교착어이어서 형태소 분석 없이 품사 부착이 어려울 뿐 아니라 형태소를 분석할 때 다양한 어형 변화가 복원되어야 한다. 이것은 한국어 형태소 분석의 고질적인 문제 중 하나이며, 주로 규칙을 이용해서 해결한다. 규칙을 이용할 경우 주어진 문맥에 가장 적합한 복원을 어려워 여러 형태의 모호성을 생성하며, 이는 품사 부착에 의해서 해결된다. 본 논문에서는 이 문제를 기계학습 방법(Na$\ddot{i}$ve Bayes 모델)을 이용하여 해결한다. 기계학습 모델의 입력 자질은 어형 변화가 발생하는 주변 음절이며 출력 범주는 복원된 음절이다. ETRI 구문 말뭉치를 이용한 실험에서 제안된 형태소 복원 모델을 사용한 형태소 단위의 품사 부착 성능은 97.5%의 $F_1$점수를 보였으며 이 모델이 형태소 복원에 매우 유용함을 알 수 있었다.

한국어 형태소 복원을 위한 언어모델의 평탄화(smoothing) (Language Model Smoothing for Korean Morpheme Recovery)

  • 이다니엘;김보겸;이재성
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(B)
    • /
    • pp.309-311
    • /
    • 2012
  • 형태소 복원은 형태소 분석의 한 단계로 문장에 나타난 형태소의 변형 현상을 분석하여 규칙화하고 이를 이용하여 형태소 원형을 복원하는 것이다. 본 논문에서는 형태소 품사 부착 말뭉치로부터 다양한 형태소 변화 규칙을 학습하여 효과적으로 형태소 원형을 복원하기 위한 계산 방법을 비교한다. 이를 위해 계산 모델, 한글 코드, 학습 자료를 다르게 하여 학습하고 그에 따른 성능을 비교 분석한다.

한국어 형태소 분석을 위한 음절 단위 확률 모델 (Syllable-based Probabilistic Models for Korean Morphological Analysis)

  • 심광섭
    • 정보과학회 논문지
    • /
    • 제41권9호
    • /
    • pp.642-651
    • /
    • 2014
  • 본 논문에서는 음절 단위의 한국어 형태소 분석 방법에 적용할 수 있는 세 가지 확률 모델을 제안하고, 품사 태깅 말뭉치를 이용하여 각 확률 모델의 성능을 평가한다. 성능 평가를 위해 1,000만 어절 규모의 세종 말뭉치를 10 개의 세트로 나누고 10 배수 교차 검증 결과 98.4%의 정답 제시율을 얻을 수 있었다. 제안된 확률 모델은 각 음절에 대하여 품사 태그를 먼저 부착한 후 원형 복원 및 형태소 생성을 하기 때문에 원형 복원을 먼저 하는 기존 확률 모델에 비하여 탐색 공간이 크게 줄어들어 형태소 분석 과정이 훨씬 간결하고 효율적이어서 분석 속도가 기존의 초당 수 백 어절에서 14만 7천 어절로 약 174배 가량 향상시킬 수 있었다.

한국어 형태소 복원 확률 모델의 계산 방법 비교 (Comparison of Calculation Methods for Probabilistic Korean Morpheme Recovery Model)

  • 이다니엘;김보겸;이재성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2011년도 제23회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.130-132
    • /
    • 2011
  • 형태소 복원은 형태소 분석의 한 단계로 문장에 나타난 형태소의 변형 현상을 분석하여 규칙화하고 이를 이용하여 형태소 원형을 복원하는 것이다. 본 논문에서는 형태소 품사 부착 말뭉치로부터 다양한 형태소 변화 규칙을 학습하여 효과적으로 형태소 원형을 복원하기 위한 계산 방법을 비교한다. 이를 위해 계산 모델, 한글 코드, 학습 자료를 다르게 하여 학습하고 그에 따른 성능을 비교 분석한다.

  • PDF

동영상 기반 자동 발화 심층 분석(SUDA) 어플리케이션 개발 (Development of the video-based smart utterance deep analyser (SUDA) application)

  • 이수복;곽효정;윤재민;신동춘;심현섭
    • 말소리와 음성과학
    • /
    • 제12권2호
    • /
    • pp.63-72
    • /
    • 2020
  • 본 연구는 동영상을 기반으로 일상생활에서 녹화한 아동 및 성인의 발화를 자동으로 분석해주는 SUDA(smart utterance deep analyser) 하이브리드 앱 개발에 관한 것이다. 특히, 아동과 부모가 원하는 시간 및 장소에서 상호작용하는 장면을 촬영하여 업로드할 수 있고 시간의 흐름에 따라 데이터를 계속 축적하여 이를 관찰하고 분석할 수 있도록 도울 수 있다. SUDA는 안드로이드폰, 아이폰, 태플릿 PC 기반에서 구동되며, 대용량의 동영상을 녹화 및 업로드할 수 있고, 사용자의 목적(일반인, 전문가, 관리자)에 따라 차별화된 기능을 제공할 수 있다. 전문가 모드에서는 자동화된 시스템과 협업하여 대상자의 발화를 말·언어적인 측면(비유창성, 형태소수, 음절수, 단어수, 말속도, 반응시간 등)에서 세부적으로 분석할 수 있다. 즉, SDUA 시스템이 대상자의 발화를 반자동으로 전사 및 분석하면, 언어치료사가 이를 검토하고, 보완하여 의사소통장애 진단과 중재 시 활용할 수 있다. 일반인(부모)의 경우, 전문가가 분석한 결과를 그래프 형태로 제공 받아 모니터링 할 수 있고, 관리자는 발화 분석, 영상삭제 등 전체 시스템을 관리할 수 있다. 본 시스템은 발화 분석의 반자동화로 치료사와 연구자의 부담을 줄여주고, 부모가 자녀의 발화를 기반으로 하여 말·언어발달에 대한 정보를 쉽고 다양하게 제공 받을 수 있다는 점에서 임상적 의의가 있다. 또한, 한국형 말더듬아동 진단 및 중재에 적용할 수 있는 종단데이터를 구축하고, 말더듬 회복 예측 요인들을 찾는 기초자료로 활용하고자 한다.