Abstract
National statistical data such as Korean Census is fundamental data for national administration. In this paper, we present an automatic coding system utilizing morphological analyser and knowledge dictionaries. Knowledge bases are constructed based on an authority dictionaries which were developed by authors utilizing a newly learning theory. Test data indicates 99.5% of productivity and 83.3% of accuracy. The presented methods can be effectively applied to analyze statistical information.
인구센서스와 같은 국가 통계정보는 국가의 미래 투자계획과 정책수립을 위한 중요한 기초데이터이다. 그러나 데이터의 코딩과정이 모두 수작업으로 이루어지기 때문에 결과의 일관성 결여와 시간과 인력이 너무 많이 소요된다는 것 등이 문제점으로 지적되고 있다. 따라서 본 연구에서는 한국 산업표준 분류표에 근거한 자동코딩시스템을 개발하여 코딩과정을 수작업으로 처리할 때 발생하는 문제점을 해결하였다. 시스템의 지식베이스로는 학습이론을 사용하여 저자가 새로이 개발한 복수의 전거어 사전들을 활용하였다. 실험한 결과, 생성률은 99.5%를, 정확률은 83.3%라는 결과를 얻었다. 따라서 이 시스템은 실제 통계데이터의 자동코딩과정에 사용될 수 있으며, 국가 통계정보의 효율적 분석에 매우 유용하게 사용될 수 있을 것이다.