Extracting High-Frequency Optimal Korean Word Set by Word Frequency Statistics

Kang, Seung-Shik;

Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))

2001.10d
/
Pages.85-88
/
2001
/
2005-3053(pISSN)

Human and Language Technology (한국정보과학회 언어공학연구회)

Extracting High-Frequency Optimal Korean Word Set by Word Frequency Statistics

어절 빈도 조사에 의한 최적의 고빈도 어절 집합 추출

Kang, Seung-Shik (School of Computer Science, Kookmin University)

강승식 (국민대학교 컴퓨터학부)

Published : 2001.10.12

PDF

Download PDF

⟨ Previous Next ⟩

Abstract

1500만, 700만, 10만 어절 크기의 세 가지 원시 말뭉치로부터 한국어 어절 빈도를 조사하였다. 각 말뭉치에 대한 어절 빈도 결과를 비교-분석하여 활용가치가 높은 고빈도 어절 집합을 구하였다. 고빈도 어절 집합의 효용성을 검증하기 위해 일반문서에 대한 어절 적중률을 실험하였다. 그 결과로 고빈도 563 어절이 24.5%, 9484 어절이 51.5%, 184246 어절이 81.6%의 어절 적중률을 보였다.

Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))

Extracting High-Frequency Optimal Korean Word Set by Word Frequency Statistics

어절 빈도 조사에 의한 최적의 고빈도 어절 집합 추출

Abstract

Keywords