DOI QR코드

DOI QR Code

Automatic Korean to English Cross Language Keyword Assignment Using MeSH Thesaurus

MeSH 시소러스를 이용한 한영 교차언어 키워드 자동 부여

  • 이재성 (충북대학교 컴퓨터교육과) ;
  • 김미숙 ((재)중부직업전문학교) ;
  • 오영순 (오창고등학교) ;
  • 이영성 (충북대학교 의과대학 의학과 의료정보학 및 관리학교실)
  • Published : 2006.04.01

Abstract

The medical thesaurus, MeSH (Medical Subject Heading), has been used as a controlled vocabulary thesaurus for English medical paper indexing for a long time. In this paper, we propose an automatic cross language keyword assignment method, which assigns English MeSH index terms to the abstract of a Korean medical paper. We compare the performance with the indexing performance of human indexers and the authors. The procedure of index term assignment is that first extracting Korean MeSH terms from text, changing these terms into the corresponding English MeSH terms, and calculating the importance of the terms to find the highest rank terms as the keywords. For the process, an effective method to solve spacing variants problem is proposed. Experiment showed that the method solved the spacing variant problem and reduced the thesaurus space by about 42%. And the experiment also showed that the performance of automatic keyword assignment is much less than that of human indexers but is as good as that of authors.

의학용 시소러스인 MeSH (Medical Subject Heading)는 영어 의학 논문 색인을 위한 통제어 시소러스로서 오랫동안 사용되고 있다. 본 논문에서는 한국어 MeSH를 이용하여 한국어 의학 논문의 요약문에 자동으로 영문 MeSH 색인어를 부여하는 '교차언어 키워드 부여' 방법을 제안하고 색인 전문가 및 저자의 색인 효율과 비교한다. 이 색인어 부여 과정은 우선 한국어 MeSH 용어를 문장에서 인식하여 추출하고, 이 용어를 다시 영어 MeSH 용어로 바꾼 후, 용어의 중요도를 계산하여 상위의 용어를 색인어로 부여한다. 특히, 한국어 MeSH 용어 추출을 위해 효과적으로 띄어쓰기 변이를 처리할 수 있는 방법을 제안한다 실험 결과, 띄어쓰기 변이를 효과적으로 처리하여 한국어 MeSH의 크기를 약 42% 정도 줄였을 뿐만 아니라, 후보 색인어 추출의 효과도 높였다. 또 이 방법을 이용하여 색인어 자동 부여를 한 후, 색인 전문가 및 저자의 색인 결과를 비교한 결과, 이 자동 색인 방법이 전문가의 색인 능력보다는 부족했지만, 저자의 색인 능력과는 별 차이가 없음을 보였다.

Keywords

References

  1. MeSH 2004. http://www.nlm.nih.gov/mesh/
  2. Aronson, Alan R., Bodenreider, Oliver, Chang, H. F Florence, Humphrey, Susan M., Mork, James G., Nelson, Stuart J., Rindflesch, Thomas C., Wilbur, W. John. The NLM indexing initiative. In proceedings of AMIA symposium, pp.17-21,2001
  3. Kim, Won, Aronson, Alan R,. Wilbur, W. John. Automatic MeSH term assignment and quality assessment. In proceedings of AMIA symposium, pp.319- 323, 2001
  4. Hersh, W., Buddy, C., Leone, TJ. OHSUMED: An interactive retrieval evaluation and new large test collection for research. In proceedings of seventeenth annual international ACM-SIGIR conference on research and development in information retrieval. Dublin, Ireland, Spring-Verlag, pp.192-201, 1994
  5. Srinivasan, P. Optimal document indexing vocabulary for MEDLINE. Information Processing & Managernent, Vol.32, No.5, pp.503-514, 1996 https://doi.org/10.1016/0306-4573(96)00025-8
  6. 김병선,김수영. 가정의학회지 논문의 영문 주제어 선택에 있어서 MeSH용어 사용 여부와 선택 정확도. 대한가정의학회지, Vol.19, No.7, pp.531-537, 1998
  7. Salton, G. 1989. Automatic text processing. Readings, Massachu-setts, Addison-Wesley series in computer science
  8. KMbase. 2004. http://kmbase.medric.or.kr/
  9. Manning, Christopher D., Schutze, Hinrich. Foundations of Statistical Natural Language Processing, The MIT Press, Cambridge, Massachusetts, pp.244-247, 1999
  10. Aronson, Alan R. The effect of textual variation on concept based information retrieval. In proceedings of AMIA annual fall symposium, pp.373- 377, 1996
  11. 강병주, 최기선, 윤준태. 한국어 정보검색에서 복합명사 색인 실험. 한글 및 한국어 정보처리 학술대회, pp.130-136, 1998
  12. 윤보현, 김상범, 임해창. 한국어 정보검색에서 구문적 용어불일치 완화방안. 한글 및 한국어 정보처리 학술대회 pp.143-149, 1998
  13. 강승식. 한국어 형태소 분석과 정보 검색. 홍릉과학출판사, 2002