품사 정보와 템플릿을 이용한 문장 축소 방법

A Sentence Reduction Method using Part-of-Speech Information and Templates

  • 이승수 (삼성전자 DM연구소) ;
  • 염기원 (한국과학기술연구원 지능인터렉션연구센터) ;
  • 박지형 (한국과학기술연구원 지능인터렉션연구센터) ;
  • 조성배 (연세대학교 컴퓨터과학과)
  • 발행 : 2008.05.15

초록

문장 축소란 원본 문장의 기본적인 의미를 유지하면서 불필요한 단어나 구를 제거하는 일련의 정보 압축 과정을 의미한다. 기존의 문장 축소에 관한 연구들은 학습 과정에서 대량의 어휘나 구문적 자원을 필요로 하였으며, 복잡한 파싱 과정을 통해서 불필요한 문장의 구성원(예를 들어, 단어나 구, 절 등)들을 제거하여 문장을 요약하였다. 그러나 학습 데이타로부터 얻을 수 있는 어휘적 자원은 매우 한정적이며, 문장의 모호성과 예외적인 표현들 때문에 구문 분석 결과가 명료하게 제공되지 않은 언어에서는 문장 요약이 용이하지 않다. 이에 본 논문에서는 구문 분석을 대체하기 위한 방법으로 템플릿과 품사 정보를 이용한 문장 축소 방법을 제안한다. 제안하는 방법은 요약문의 구조적 형태를 결정하기 위한 문장 축소 템플릿(Sentence Reduction Templates)과 문법적으로 타당한 문장 구조를 구성하는 품사기반 축소규칙(Grammatical POS-based Reduction Rules)을 이용하여 요약 대상 문장의 구성을 분석하고 요약한다. 더불어, 문장 축소 템플릿 적용 시 발생하는 연산량 증가 문제를 은닉 마르코프 모델(HMM: Hidden Markov Model)의 비터비 알고리즘(Viterbi Algorithm)을 이용하여 효과적으로 처리한다. 마지막으로, 본 논문에서 제안한 문장 축소 방법의 결과와 기존 논문의 연구 결과를 비교 및 평가함으로써 제안하는 문장 축소 방법의 유용성을 확인한다.

A sentence reduction is the information compression process which removes extraneous words and phrases and retains basic meaning of the original sentence. Most researches in the sentence reduction have required a large number of lexical and syntactic resources and focused on extracting or removing extraneous constituents such as words, phrases and clauses of the sentence via the complicated parsing process. However, these researches have some problems. First, the lexical resource which can be obtained in loaming data is very limited. Second, it is difficult to reduce the sentence to languages that have no method for reliable syntactic parsing because of an ambiguity and exceptional expression of the sentence. In order to solve these problems, we propose the sentence reduction method which uses templates and POS(part of speech) information without a parsing process. In our proposed method, we create a new sentence using both Sentence Reduction Templates that decide the reduction sentence form and Grammatical POS-based Reduction Rules that compose the grammatical sentence structure. In addition, We use Viterbi algorithms at HMM(Hidden Markov Models) to avoid the exponential calculation problem which occurs under applying to Sentence Reduction Templates. Finally, our experiments show that the proposed method achieves acceptable results in comparison to the previous sentence reduction methods.

키워드

참고문헌

  1. J. Kupiec, J. Pedersen, and F. Chen, "A trainable document summarizer," in Proceedings of ACM- SIGR, pp. 68-73, 1995
  2. H. Jing, "Using hidden markov modeling to decompose human-written summaries," CL, Vol.28, No.4, pp. 527-543, 2002
  3. K. Knight and D. Marcu, "Summarization beyond sentence extraction: A probabilistic approach to sentence compression," Artificial Intelligence, Vol. 139, pp. 91-107, 2002 https://doi.org/10.1016/S0004-3702(02)00222-9
  4. S. Riezler, T. H. King, R. Crouch and A. Zaenen, "Statistical sentence condensation using ambiguity packing and stochastic disambiguation methods for lexical-functional grammar," HCL-NAACL 2003, pp. 197-204, 2003
  5. J. M. Withbrock and O. V. Mittal, "Ultra-summarization: a statistical approach to generating highly condensed non-extractive summaries," In Proceedings of the 22nddddddd International Conference on Research and Development in Information Retrieval (SIGR'99, Berkeley, CA). Poster session, pp. 315-316, 1999
  6. M. L. Nguyen, et al., "Probabilistic sentence reduction using support vector machines," Proceedings of The 20th International Conference on Computational Linguistics, pp. 23-27, 2004
  7. M. Nagao, "Framework of a mechanical translation between Japanese and English by analogy principle," Artif. Human Intell., pp. 173-180, North- Holland, Edinburgh, 1984
  8. I. Cicekli and H. A. Guvenir, "Learning translation rules from a bilingual corpus," In Proceedings of the Second International Conference on New Methods in Language Processing, pp. 90-97, 1996
  9. I. Cicekli and H. A. Guvenir, "Learning translation templates from bilingual translation examples," Applied Intelligence, Vol.15, pp. 57-76, 2001 https://doi.org/10.1023/A:1011270708487
  10. L. R. Rabiner, "A tutorial on hidden markov models and selected applications in speech recognition," Proceedings of IEEE, Vol.77, No.2, February 1989
  11. K. S. Han, D. H. Baek, and H. C. Rim, "Automatic text summarization using query expansion," Proc. of the 27th Korean Information Science Society Spring Conference, pp. 339-341, 2000
  12. M. L. Nguyen, S. Horiguchi, A. Shimazu, and B.T. Ho, "Example-Based Sentence Reduction Using the Hidden Markov Model," ACM Transactions on Asian Language Information Processing, Vol.3, No.2, pp. 146-158, 2004 https://doi.org/10.1145/1034780.1034785