• 제목/요약/키워드: 기분석사전

검색결과 1건 처리시간 0.014초

기분석사전과 기계학습 방법을 결합한 음절 단위 한국어 품사 태깅 (Syllable-based Korean POS Tagging Based on Combining a Pre-analyzed Dictionary with Machine Learning)

  • 이충희;임준호;임수종;김현기
    • 정보과학회 논문지
    • /
    • 제43권3호
    • /
    • pp.362-369
    • /
    • 2016
  • 본 논문은 음절 단위 한국어 품사 태깅 방법의 성능 개선을 위해 기분석사전과 기계학습 방법을 결합하는 방법을 제안한다. 음절 단위 품사 태깅 방법은 형태소분석을 수행하지 않고 품사 태깅만을 수행하는 방법이며, 순차적 레이블링(Sequence Labeling) 문제로 형태소 태깅 문제를 접근한다. 본 논문에서는 순차적 레이블링 기반 음절 단위 품사 태깅 방법의 전처리 단계로 품사 태깅말뭉치와 국어사전으로부터 구축된 복합명사 기분석사전과 약 1천만 어절의 세종 품사 태깅말뭉치로부터 자동 추출된 어절 사전을 적용함으로써 품사 태깅 성능을 개선시킨다. 성능 평가를 위해서 약 74만 어절의 세종 품사 태깅말 뭉치로부터 67만 어절을 학습 데이터로 사용하고 나머지 7만 4천 어절을 평가셋으로 사용하였다. 기계학습 방법만을 사용한 경우에 96.4%의 어절 정확도를 보였으며, 기분석사전을 결합한 경우에는 99.03%의 어절 정확도를 보여서 2.6%의 성능 개선을 달성하였다. 퀴즈 분야의 평가셋으로 실험한 경우에도 기계학습 엔진은 96.14% 성능을 보인 반면, 하이브리드 엔진은 97.24% 성능을 보여서 제안 방법이 다른 분야에도 효과적임을 확인하였다.