한국정보과학회:학술대회논문집 (Proceedings of the Korean Information Science Society Conference)
- 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(A)
- /
- Pages.242-244
- /
- 2012
- /
- 1598-5164(pISSN)
분산병렬처리 기반 기술개체 인식 시스템
Technical Entity Recognition System based on Distributed Parallel Processing
- 최윤수 (한국과학기술정보연구원) ;
- 이원구 (한국과학기술정보연구원) ;
- 이민호 (한국과학기술정보연구원) ;
- 최동훈 (한국과학기술정보연구원) ;
- 윤화묵 (한국과학기술정보연구원) ;
- 조민희 (한국과학기술정보연구원) ;
- 정한민 (한국과학기술정보연구원)
- Choi, Yun-Soo (Korea Institute of Science and Technology Information) ;
- Lee, Won-Goo (Korea Institute of Science and Technology Information) ;
- Lee, Min-Ho (Korea Institute of Science and Technology Information) ;
- Choi, Dong-Hoon (Korea Institute of Science and Technology Information) ;
- Yoon, Hwa-Mook (Korea Institute of Science and Technology Information) ;
- Cho, Min-Hee (Korea Institute of Science and Technology Information) ;
- Jeong, Han-Min (Korea Institute of Science and Technology Information)
- 발행 : 2012.06.22
초록
과학기술 문헌의 기술개체 인식에 관한 연구는 정보추출, 텍스트마이닝, 질의응답 분야 등의 선행 연구로서 다양한 통계적 방법론을 사용하여 기술개체 인식 정확률을 향상시키기 위해 연구되어 왔다. 하지만 기존의 연구는 단일-코어 또는 단일 머신 상에서 수행되었기 때문에, 폭발적으로 증가하는 문헌들에 대한 실시간 분석 요구를 처리할 수 없는 상황에 직면하고 있다. 이에 본 논문에서는 기술개체를 인식하는 과정에서 병목현상이 발생하는 작업을 "후보개체 추출 과정"의 언어처리 부분과 "개체 가중치 할당 과정"에서 통계정보를 취합하는 부분으로 분류하고, 각 작업을 하둡의 맵 작업과 리듀스 작업을 이용하여 해결하는 분산 병렬 처리 기반의 기술개체 인식 방법에 대해 살펴보고자 한다.
키워드