어절 빈도 조사에 의한 최적의 고빈도 어절 집합 추출

Extracting High-Frequency Optimal Korean Word Set by Word Frequency Statistics

  • 강승식 (국민대학교 컴퓨터학부)
  • 발행 : 2001.10.12

초록

1500만, 700만, 10만 어절 크기의 세 가지 원시 말뭉치로부터 한국어 어절 빈도를 조사하였다. 각 말뭉치에 대한 어절 빈도 결과를 비교-분석하여 활용가치가 높은 고빈도 어절 집합을 구하였다. 고빈도 어절 집합의 효용성을 검증하기 위해 일반문서에 대한 어절 적중률을 실험하였다. 그 결과로 고빈도 563 어절이 24.5%, 9484 어절이 51.5%, 184246 어절이 81.6%의 어절 적중률을 보였다.

키워드