분산병렬처리 기반 기술개체 인식 시스템

Technical Entity Recognition System based on Distributed Parallel Processing

  • Choi, Yun-Soo (Korea Institute of Science and Technology Information) ;
  • Lee, Won-Goo (Korea Institute of Science and Technology Information) ;
  • Lee, Min-Ho (Korea Institute of Science and Technology Information) ;
  • Choi, Dong-Hoon (Korea Institute of Science and Technology Information) ;
  • Yoon, Hwa-Mook (Korea Institute of Science and Technology Information) ;
  • Cho, Min-Hee (Korea Institute of Science and Technology Information) ;
  • Jeong, Han-Min (Korea Institute of Science and Technology Information)
  • 발행 : 2012.06.22

초록

과학기술 문헌의 기술개체 인식에 관한 연구는 정보추출, 텍스트마이닝, 질의응답 분야 등의 선행 연구로서 다양한 통계적 방법론을 사용하여 기술개체 인식 정확률을 향상시키기 위해 연구되어 왔다. 하지만 기존의 연구는 단일-코어 또는 단일 머신 상에서 수행되었기 때문에, 폭발적으로 증가하는 문헌들에 대한 실시간 분석 요구를 처리할 수 없는 상황에 직면하고 있다. 이에 본 논문에서는 기술개체를 인식하는 과정에서 병목현상이 발생하는 작업을 "후보개체 추출 과정"의 언어처리 부분과 "개체 가중치 할당 과정"에서 통계정보를 취합하는 부분으로 분류하고, 각 작업을 하둡의 맵 작업과 리듀스 작업을 이용하여 해결하는 분산 병렬 처리 기반의 기술개체 인식 방법에 대해 살펴보고자 한다.

키워드