• 제목/요약/키워드: Fake Mobile Colloquial Corpus

검색결과 1건 처리시간 0.016초

한국어 경량형 띄어쓰기 교정 시스템의 구현 (An Implementation of a Lightweight Spacing-Error Correction System for Korean)

  • 송영길;김학수
    • 컴퓨터교육학회논문지
    • /
    • 제12권2호
    • /
    • pp.87-96
    • /
    • 2009
  • 본 논문에서는 기존의 규칙 기반 방법과 통계 기반 방법의 장점을 취하면서도 메모리 사용량이 적은 한국어 띄어쓰기 교정 시스템을 제안한다. 또한 철자 오류와 조사 생략이 빈번히 발생하는 모바일 구어체에 강건하도록 모델을 학습시키기 위해서 일반 구어체 말뭉치로부터 가상의 구어체 말뭉치를 자동으로 구축하는 방법을 제안한다. 제안 시스템은 새로운 음절 패턴에 대한 적용 범위를 증가시키기 위해서 음절 유니그램 통계 정보를 이용하며, 정밀도 향상을 위해서 음절 바이그램 이상의 오류 교정 규칙을 이용한다. 가상의 모바일 구어체 문장에 대한 실험 결과에 따르면 제안 시스템은 1MB 내외의 적은 메모리를 사용하면서도 92.10%(일반 구어체 말뭉치에서 93.80%, 일반 균형 말뭉치에서 94.07%)라는 비교적 높은 정밀도를 보였다.

  • PDF