• 제목/요약/키워드: 형태소 범주 패턴

검색결과 2건 처리시간 0.017초

어절 내의 형태소 범주 패턴에 기반한 통계적 자동 띄어쓰기 시스템 (A Stochastic Word-Spacing System Based on Word Category-Pattern)

  • 강미영;정성원;권혁철
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제33권11호
    • /
    • pp.965-978
    • /
    • 2006
  • 본 논문에서는 형태소 unigram과 한국어 어절을 형성하는 형태소 범주 패턴에 기반하여 어절을 인식하는 한국어 띄어쓰기 시스템을 구현하였다. 기존에 많이 연구된 통계 정보를 이용한 띄어쓰기 모델은 비교적 짧은 시간에 쉽게 구현할 수 있는 장점이 있지만, 한국어의 형태 유형론적 특성 때문에 발생하는 (ㄱ) 자료부족 문제와 (ㄴ) 메모리 크기 문제에 효과적으로 대처하지 못한다. 본 논문은 이 두 문제를 동시에 해결하기 위해 어절을 구성하고 있는 개별 형태소의 통계 정보와 그 형태소의 범주의 통계 정보를 기반으로 하여 띄어쓰기 후보 어절들을 추천한다. 임의의 후보 어절이 최종의 띄어쓰기 단위인 어절이 될 수 있는 확률은 (ㄱ) 해당 후보 어절 내의 각 형태소 확률과 (ㄴ) 해당 후보 어절을 구성하기 위해 그 형태소의 범주가 다른 형태소 범주와 함께 형성하는 패턴 내에서 차지하는 '범주가중치'를 고려하여 구한다. 해당 '범주가중치'는 (ㄱ) 말뭉치로부터 실제로 관찰된 어절의 확률과 (ㄴ) 후보 어절 내의 개별 형태소의 확률과 (ㄷ) 그 범주 가중치에 의해 추정된 어절 확률 사이의 평균 에러(error mean)가 최저가 되는 방향으로 학습하여 얻어진다.

한국어 규칙 동사와 불규칙 동사의 심성 어휘집 접근 과정 (The Lexical Access of Regular and Irregular Korean Verbs in the Mental Lexicon)

  • 박희진;구민모;남기춘
    • 인지과학
    • /
    • 제23권1호
    • /
    • pp.1-23
    • /
    • 2012
  • 본 연구는 한국어 동사의 활용된 형태인 굴절 동사의 심성어휘집 접근 과정을 알아보기 위한 연구이다. 이를 위하여 차폐 점화 어휘 판단과제 실험을 실시하여 점화크기를 비교하였다. 한국어 규칙 동사와 불규칙 동사를 다섯 가지로 나누어 실험을 수행하였다. 활용의 종류는 1) 완전규칙 2) 발음변화규칙 3) 철자변화규칙 4) 어간변화 불규칙 5) 어미변화 불규칙으로 1), 2), 3)은 규칙 활용의 범주로 4), 5)는 불규칙활용의 범주이다. 기본형의 동사를 표적자극으로 사용하였고, 점화자극으로 총 세 가지 유형이 사용하였다. 점화자극으로 사용한 자극은 기본형의 어간의 변화가 없는 규칙활용, 기본형의 어간이 철자적, 음운적으로 변화하는 불규칙활용과, 의미 및 형태적으로 관련 없는 통제된 단어이다. 또한 단어재인의 처리에서 형태소 분해 정보처리의 시간대를 살펴보기 위하여 SOA의 간격을 43ms, 72ms, 230ms의 3가지로 나누어 실험하였다. 모든 동사가 모든 SOA에서 규칙활용과 불규칙활용이 통제단어에 비해 빠른 반응시간을 보임으로써 점화효과가 관찰되었다. 그러나 규칙활용과 불규칙활용에서 뚜렷이 점화효과의 차이가 관찰되지 않는다. 이러한 규칙활용과 불규칙활용의 범주의 구분 없이 비슷한 패턴을 보여주는 결과는 한국어가 단순히 규칙과 불규칙의 기준으로 나뉘어서 처리되지 않는다는 것을 시사한다. 또한 모든 SOA에서 촉진효과를 보임으로써 형태소 정보처리가 초기과정부터 일어남을 확인하였다.

  • PDF