A Sentence Theme Allocation Scheme based on Head Driven Patterns in Encyclopedia Domain

백과사전 영역에서 중심어주도패턴에 기반한 문장주제 할당 기법

  • 강보영 (한국정보통신대학교 공학부) ;
  • 맹성현 (한국정보통신대학교 공학부)
  • Published : 2005.05.01

Abstract

Since sentences are the basic propositional units of text, their themes would be helpful for various tasks that require knowledge about the semantic content of text. Despite the importance of determining the theme of a sentence, however, few studies have investigated the problem of automatically assigning the theme to a sentence. Therefore, we propose a sentence theme allocation scheme based on the head-driven patterns of sentences in encyclopedia. In a serious of experiments using Dusan Dong-A encyclopedia, the proposed method outperformed the baseline of the theme allocation performance. The head-driven pattern 4, which is reconfigured based on the predicate, showed superior performance in the theme allocation with the average F-score of $98.96\%$ for the training data, and $88.57\%$ for the test data.

기존의 주제 관련 연구들은 문서에 자주 등장하는 용어를 주제로 간주하는 등 문서에서 다루는 주제에 대한 정의가 모호하다. 또한 문서를 구성하는 기본 단위인 문장의 주제가 문서 요약 및 정보 추출 등의 연구 분야에 중요하게 활용될 수 있음에도 불구하고, 이에 대한 고려 없이 문서 전체의 주제를 추출하고 할당하는 연구가 대부분이다. 따라서 본 논문에서는 문장 단위의 주제 처리에 대한 기본 연구로서, 백과사전 영역에서 효과적인 중심어주도패턴에 기반한 문장주제 할당 기법을 제안하였다. 두산동아 백과사전 인물분야 2,381문서를 대상으로 성능을 분석해본 결과, 제안된 기법이 비교기준보다 향상된 성능을 보였으며, 특히 제안된 네 가지 중심어주도 패턴 중 술어를 기반으로 구성된 중심어주도패턴 유형 4가 학습집합에 대하여 평균 $98.96\%$, 실험집합에 대하여 $88.57\%$의 성능(F-score)으로 주제할당에 가장 효과적임을 알 수 있었다.

Keywords

References

  1. Kupiec, J., 'MURAX: A Robust linguistic approach for question answering using an on-line encyclopedia,' Proceedings of the 16th annual international ACM SIGlR conference on research and development in information retrieval, pp. 181-190, 1993 https://doi.org/10.1145/160688.160717
  2. Maedche, A., Ontology Learning for the semantic web, Kluwer academic publishers, 2002
  3. Moens, M-F., Automatic indexing and abstracting of document texts, pp. 103-132, Kluwer academic publishers, 2000
  4. Lewis, D. D., Schapire, R. E., Callan, J. P. and Papka, R., 'Training algorithms for linear text classifiers,' Proceedings of the 19th annual international ACM SIGIR conference on research and development in information retrieval, pp. 298-306, 1996 https://doi.org/10.1145/243199.243277
  5. Schutze, H., Hull, D. A., and Pedersen, J. O., 'A comparison of classifiers and document representations for the routing problem,' Proceedings of the 18th annual international ACM SIGlR conference on research and development in information retrieval, pp. 229-237, 1995 https://doi.org/10.1145/215206.215365
  6. Yiming Yang. 'An Evaluation of Statistical Approaches to Text Categorization,' Journal of Information Retrieval, Vol.1, No.1, pp.67-88, 1999 https://doi.org/10.1023/A:1009982220290
  7. 박기림, 장유진, 김민구, 박승규, '문서 내의 주제정보를 이용한 개선된 링크분석 알고리즘', 한국정보과학회 가을학술발표논문집(1), pp. 7-9, 2003
  8. 이시은, 황인준, '의미 구역에 기반한 관련 웹 페이지 요약 기법', 한국정보과학회 봄학술발표논문집(B), pp. 597-599, 2003
  9. 정태진, 장병탁, '강화학습을 이용한 웹 정보 검색', 한국정보과학회 가을학술발표논문집(II), pp. 94-96, 2001
  10. 서혁, '담화의 구조와 주제구성에 관한 연구', 서울대학교 박사학위 논문, 2002
  11. Cunningham, J. W. and Moore, D. M., 'The Confused world of main idea,' In J. F. Baumann.(ed.), Teaching main idea, N.Y.: IRA, 1986
  12. Fellbaum, C. et al., WordNet: An electronic lexical database, pp. 23-46, The MIT press, 1998
  13. Francois, J. and Denhiere, G., 'Etude experimentale de la validite cognitive d'un classement aspectuel et actanciel des predications,' verbum 3, pp. 117-138. 1992
  14. Kekenbosch, C. and Bromberg, M., 'Metacategories and sentence classification,' Journal of pragmatics, Vol. 35, pp. 1-22, 2003 https://doi.org/10.1016/S0378-2166(02)00050-4
  15. 이성헌, '전자사전구축을 위한 언어기술의 한 방법: 대상부류', 언어학, 제30권, pp. 185-206, 2001