DOI QR코드

DOI QR Code

Biomedical Terminology Extraction using Syllable Bigram and CRFs

음절 바이그램과 CRFs를 이용한 의학 전문 용어 추출

  • Song, Soo-Min (Program of Computer and Communications Engineering, Kangwon National University) ;
  • Shin, Junsoo (Program of Computer and Communications Engineering, Kangwon National University) ;
  • Kim, Harksoo (Program of Computer and Communications Engineering, Kangwon National University)
  • 송수민 (강원대학교 컴퓨터정보통신전공) ;
  • 신준수 (강원대학교 컴퓨터정보통신전공) ;
  • 김학수 (강원대학교 컴퓨터정보통신전공)
  • Published : 2010.04.23

Abstract

웹(Web)상에 전문용어를 포함한 문서가 증가함에 따라 전문용어를 자동으로 추출하는 연구가 계속해서 이루어지고 있다. 기존 연구에서는 전문용어를 추출하는 단계에서 대부분 형태소 분석기를 이용한다. 그러나 전문용어의 특성으로 인해 형태소 분석 단계에서 오분석 되는 경우가 발생한다. 이러한 문제를 해결하기 위해서 본 논문에서는 음절 바이그램과 CRFs(Conditional Random Fields)를 이용하여 의학 전문 용어를 추출하는 방법을 제안한다. 네이버 지식인의 의사 답변 문서 2000개로부터 5-fold cross validation을 이용하여 실험하였다. 실험 결과 정확률은 평균 68.91%, 재현율은 평균 71.25%로 나타났으며 F-measure는 70.06%로 나타났다.

Keywords