Conditional Random Fields를 이용한 세부 분류 개체명 인식

Fine-Grained Named Entity Recognition using Conditional Random Fields for Question Answering

  • 이창기 (한국전자통신연구원 임베디드SW연구단 지식마이닝연구팀) ;
  • 황이규 (한국전자통신연구원 임베디드SW연구단 지식마이닝연구팀) ;
  • 오효정 (한국전자통신연구원 임베디드SW연구단 지식마이닝연구팀) ;
  • 임수종 (한국전자통신연구원 임베디드SW연구단 지식마이닝연구팀) ;
  • 허정 (한국전자통신연구원 임베디드SW연구단 지식마이닝연구팀) ;
  • 이충희 (한국전자통신연구원 임베디드SW연구단 지식마이닝연구팀) ;
  • 김현진 (한국전자통신연구원 임베디드SW연구단 지식마이닝연구팀) ;
  • 왕지현 (한국전자통신연구원 임베디드SW연구단 지식마이닝연구팀) ;
  • 장명길 (한국전자통신연구원 임베디드SW연구단 지식마이닝연구팀)
  • Lee, Chang-Ki (Electronics and Telecommunications Research Institute(ETRI)) ;
  • Hwang, Yi-Gyu (Electronics and Telecommunications Research Institute(ETRI)) ;
  • Oh, Hyo-Jung (Electronics and Telecommunications Research Institute(ETRI)) ;
  • Lim, Soo-Jong (Electronics and Telecommunications Research Institute(ETRI)) ;
  • Heo, Jeong (Electronics and Telecommunications Research Institute(ETRI)) ;
  • Lee, Chung-Hee (Electronics and Telecommunications Research Institute(ETRI)) ;
  • Kim, Hyeon-Jin (Electronics and Telecommunications Research Institute(ETRI)) ;
  • Wang, Ji-Hyun (Electronics and Telecommunications Research Institute(ETRI)) ;
  • Jang, Myung-Gil (Electronics and Telecommunications Research Institute(ETRI))
  • 발행 : 2006.10.13

초록

질의응답 시스템은 사용자 질의에 해당하는 정답을 찾기 위해서 세부 분류된 개체명을 사용한다. 이러한 세부 분류 개체명 인식을 위해서 대부분의 시스템이 일반 대분류 개체명인식 후에 사전 등을 이용하여 세부 분류로 나누는 방법을 이용하고 있다. 본 논문에서는 질의응답 시스템을 위한 세부 분류 개체명 인식을 위해서 Conditional Random Fields를 이용한다. 개체명 인식의 과정을 개체명 경계 인식과 경계가 인식된 개체명의 클래스 분류의 두 단계로 나누어, 개체명 경계 인식에 Conditional Random Fields를 이용하고, 경계 인식된 개체명의 클래스 분류에는 Maximum Entropy를 이용한다. 실험결과 147개의 세부분류 개체명 인식에 대해서 정확도 85.8%, 재현률 81.1%. F1=83.4의 성능을 얻었고. baseline model 보다 학습 시간이 27%로 줄고 성능은 증가하였다. 또한 제안된 세부 분류개체명 인식기를 이용하여 질의응답 시스템에 적용한 결과 26%의 성능향상을 보였다.

키워드