Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))
- 2001.10d
- /
- Pages.85-88
- /
- 2001
- /
- 2005-3053(pISSN)
Extracting High-Frequency Optimal Korean Word Set by Word Frequency Statistics
어절 빈도 조사에 의한 최적의 고빈도 어절 집합 추출
- Kang, Seung-Shik (School of Computer Science, Kookmin University)
- 강승식 (국민대학교 컴퓨터학부)
- Published : 2001.10.12
Abstract
1500만, 700만, 10만 어절 크기의 세 가지 원시 말뭉치로부터 한국어 어절 빈도를 조사하였다. 각 말뭉치에 대한 어절 빈도 결과를 비교-분석하여 활용가치가 높은 고빈도 어절 집합을 구하였다. 고빈도 어절 집합의 효용성을 검증하기 위해 일반문서에 대한 어절 적중률을 실험하였다. 그 결과로 고빈도 563 어절이 24.5%, 9484 어절이 51.5%, 184246 어절이 81.6%의 어절 적중률을 보였다.
Keywords