An automatic Industrial/Occupational Code Classification Tool Using Information Retrieval Technique

정보검색 기법을 이용한 산업/직업 코드 분류 도구

  • 임희석 (천안대학교 정보통신학부) ;
  • 박두순 (순천향대학교 정보기술공학부)
  • Published : 2001.06.01

Abstract

본 논문은 통계청에서 실시하는 인구주택 총조사로부터 획득된 각 개인의 직업 및 직종을 기술하고 있는 자연어를 입력받아 입력된 자연어가 의미하는 한국 표준 산업/구업 분류 코드의 후보들을 생성하는 산업/직업 코드 분류 도구를 제안한다. 코드 분류는 분류할 코드를 문서 범주로 간주하면 문서 분류와 동일한 문제로 생각할 수 있다. 하지만 본 산업/직업 코드 분류 문제는 입력되는 자연어의 길이가 한 두 문장 정도로 매우 짧아 문서 분류에 사용될 자질들이 개수가 주어 기존의 문서 분류 기법을 적용하기 어렵다. 이에 본 논문은 표준 코드를 기술하고 있는 내용을 미리 색인하고 입력된 자연어로부터 질의어를 생성하여 벡터공간모델로 질의어를 검색후 질의어와 일치율이 가장 높은 코드들을 분류될 후보 코드로 계시하는 정보검색 기법을 이용한 산업/직업 코드 분류 도구를 개발하였다.

Keywords