• 제목/요약/키워드: 트라이그램 언어모델

검색결과 2건 처리시간 0.02초

마코프 체인 밀 음절 N-그램을 이용한 한국어 띄어쓰기 및 복합명사 분리 (Korean Word Segmentation and Compound-noun Decomposition Using Markov Chain and Syllable N-gram)

  • 권오욱
    • 한국음향학회지
    • /
    • 제21권3호
    • /
    • pp.274-284
    • /
    • 2002
  • 한국어 대어휘 연속음성인식을 위한 텍스트 전처리에서 띄어쓰기 오류는 잘못된 단어를 인식 어휘에 포함시켜 언어모델의 성능을 저하시킨다. 본 논문에서는 텍스트 코퍼스의 띄어쓰기 교정을 위하여 한국어 음절 N-그램을 이용한 자동 띄어쓰기 알고리듬을 제시한다. 제시된 알고리듬에서는 주어진 입력음절열은 좌에서 우로의 천이만을 갖는 마코프 체인으로 표시되고 어떤 상태에서 같은 상태로의 천이에서 공백음절이 발생하며 다른 상태로의 천이에서는 주어진 음절이 발생한다고 가정한다. 마코프 체인에서 음절 단위 N-그램 언어모델에 의한 문장 확률이 가장 높은 경로를 찾음으로써 띄어쓰기 결과를 얻는다. 모든 공백을 삭제한 254문장으로 이루어진 신문 칼럼 말뭉치에 대하여 띄어쓰기 알고리듬을 적용한 결과 91.58%의 어절단위 정확도 및 96.69%의 음절 정확도를 나타내었다. 띄어쓰기 알고리듬을 응용한 줄바꿈에서의 공백 오류 처리에서 이 알고리듬은 91.00%에서 96.27%로 어절 정확도를 향상시켰으며, 복합명사 분리에서는 96.22%의 분리 정확도를 보였다.

모바일 기기의 입력 문자열 추천 및 오타수정 모델을 위한 주요 기술 (Related Works for an Input String Recommendation and Modification on Mobile Environment)

  • 이성욱
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2011년도 춘계학술대회
    • /
    • pp.602-604
    • /
    • 2011
  • 스마트폰과 모바일 인터넷의 활발한 보급으로 문자 메시지 작성, 정보검색, 소셜 네트워크 참여 등 다양한 분야에 모바일 기기를 활용하는 사용자가 증가하고 있다. 모바일 기기의 특성상 키패드는 비교적 작은 크기로 구성되어 있어, 사용자가 원하는 문장을 정확하고 신속하게 입력하는데 어려움이 있다. 본 연구에서는 모바일 기기에 적용하여 키패드 입력에 도움을 줄 수 있는 입력 문자열 추천 및 오타수정 기술을 살펴보고자 한다. 기존의 온라인 검색엔진의 검색어 추천 모델에 적용되는 주요기술인 트라이(TRIE) 사전과 n-그램 언어모델을 이용한 관련 연구를 살펴본다.

  • PDF