Toward IT Domain Thesaurus: An Engineering Approach

정보산업 분야 시소러스의 공학적 구축 방안

  • 류법모 (전자전산학과 전산학, 한국과학기술원 전문용어언어공학연구센터/언어자원은행) ;
  • 김재호 (전자전산학과 전산학, 한국과학기술원 전문용어언어공학연구센터/언어자원은행) ;
  • 최기선 (전자전산학과 전산학, 한국과학기술원 전문용어언어공학연구센터/언어자원은행) ;
  • 성원경 (한국과학기술정보연구원)
  • Published : 2005.10.21

Abstract

이 논문은 공학적인 접근 방법에 기반한 단계적인 전문분야 시소러스 구축 방법을 제안한다. 시소러스 구축 과정은 용어 추출 단계, 용어 분류 단계, 계층 구조 구축 의 3단계로 구성되고, 모든 단계에서 자동 처리와 전문가 검증 작업을 거친다. 추출된 용어를 미리 정해진 분류 체계에 따라 분리한 후 여러 개의 작은 시소러스를 구축하고, 마지막으로 전체 시소러스로 결합한다. 이 방법은 1) 시소러스를 구축하는 복잡도가 줄어들고, 2) 클래스 단위의 작은 시소러스가 다른 전문분야 시소러스에 쉽게 재사용 될 수 있으며, 3) 각 클래스에 포함된 용어들의 분포를 쉽게 판단할 수 있는 장점이 있다. 제안한 방법을 이용하여 한국어 정보기술 분야 시소러스를 구축하였다. 시소러스 구축에 사용된 용어들은 정보기술 분야의 최근의 한국어 신문과 특허 문서에서 추출하였기 때문에 한국에서 만들어진 신조어를 포함한다. 구축된 시소러스는 81 개의 상위 레벨클래스와 1,000개 이상의 용어로 구성된다.

Keywords