초록
본 논문에서는 은닉 마코프 모델을 이용하여 논문 모집 공고에서 정보를 추출하는 시스템을 제안한다. 논문 모집 공고는 완전히 정형화된 형식을 가지지는 않지만, 내용의 출현 순서에 따른 흐름이 어느 정도 존재한다. 따라서 순차적인 데이터를 해석하는데 강점을 지닌 은닉 마코프 모델을 논문 모집 공고를 분석하는데 사용한다. 하지만, 논문 모집 공고를 은닉 마코프 모델로 직관적으로 모델링하면 정보 경계가 정확히 인식되지 않는 문제가 발생한다. 본 논문에서는 이 문제를 해결하기 위해 2-단계의 은닉 마코프 모델을 사용한다. 즉, 첫 번째 단계에서, 문서를 구로 모델링한 P-HMM(Phrase hidden Markov model)이 지역적으로 문서를 인식한다. 그리고 두 번째 단계에서 D-HMM(Document hidden Markov model)은 문서가 가진 전체적인 구조와 정보의 흐름을 파악한다. 웹에서 수집된 400개의 논문 모집 공고에 대한 실험 결과, F-measure 성능이 0.49를 보인다. 이는 직관적인 은닉 마코프 모델보다 F-measure로 0.15 정도 향상된 결과이다.
This paper proposes a system which extracts necessary information from call-for-paper (CFP) documents using a hidden Markov model (HMM). Even though a CFP does not follow a strict form, there is, in general, a relatively-fixed sequence of information within most CFPs. Therefore, a hiden Markov model is adopted to analyze CFPs which has an advantage of processing consecutive data. However, when CFPs are intuitively modeled with a hidden Markov model, a problem arises that the boundaries of the information are not recognized accurately. In order to solve this problem, this paper proposes a two-phrase hidden Markov model. In the first step, the P-HMM (Phrase hidden Markov model) which models a document with phrases recognizes CFP documents locally. Then, the D-HMM (Document hidden Markov model) grasps the overall structure and information flow of the document. The experiments over 400 CFP documents grathered on Web result in 0.49 of F-score. This performance implies 0.15 of F-measure improvement over the HMM which is intuitively modeled.