Automatic English MeSH keywords assignment to Korean medical documents - spacing variant effect

한국어 의학 문서에 대한 영문 MeSH 키워드의 자동 부여 - 띄어쓰기 변이 처리 효과를 중심으로

  • Lee, Jae-Sung (Dept. of Computer Education, Chungbuk National University Dept. of Health Informatics and Management, Chungbuk National University) ;
  • Kim, Mi-Suk (Dept. of Computer Education, Chungbuk National University Dept. of Health Informatics and Management, Chungbuk National University) ;
  • Lee, Young-Sung (Dept. of Computer Education, Chungbuk National University Dept. of Health Informatics and Management, Chungbuk National University)
  • 이재성 (충북대학교 컴퓨터교육과, 교육대학원 정보컴퓨터, 의학과) ;
  • 김미숙 (충북대학교 컴퓨터교육과, 교육대학원 정보컴퓨터, 의학과) ;
  • 이영성 (충북대학교 컴퓨터교육과, 교육대학원 정보컴퓨터, 의학과)
  • Published : 2004.10.08

Abstract

본 논문에서는 한국어 의학 논문의 요약문으로부터 자동 영문 MeSH 키워드 제안 시스템을 소개하고, 띄어쓰기 변이(spacing variant) 문제를 해결할 수 있는 방법을 제안한다. 띄어쓰기 변이란 표준 한글 맞춤법에 비해 다르게 띄어쓰기된 것을 말한다. 이를 위해 시소러스에는 생성 가능한 모든 띄어쓰기 변이 대신에 최대 띄어쓰기 어구만을 저장하고, 문서에서 K-MeSH 용어를 찾기 위해 음절단위 부분문자열 검색을 사용한다. 이 방법으로 한국어 의학 논문의 요약문에서 K-MeSH 용어를 추출한 후, TF-IDF 순위 함수를 이용하여 상위 10위내의 키워드를 저자가 선정한 영문 키워드와 비교한 결과 58%가 일치하였다. 이는 기존 방법에 비해 42%정도의 시소러스 크기가 축소되었고, 상위 10위내에서 영문 MeSH 키워드 추천 재현률이 약 7.8% 증가한 것으로 효과적인 방법임을 보여주었다.

Keywords