DOI QR코드

DOI QR Code

Event Sentence Extraction for Online Trend Analysis

온라인 동향 분석을 위한 이벤트 문장 추출 방안

  • Received : 2012.04.13
  • Accepted : 2012.06.29
  • Published : 2012.09.28

Abstract

A conventional event sentence extraction research doesn't learn the 3W features in the learning step and applies the rule on whether the 3W feature exists in the extraction step. This paper presents a sentence weight based event sentence extraction method that calculates the weight of the 3W features in the learning step and applies the weight of the 3W features in the extraction step. In the experimental result, we show that top 30% features by the $TF{\times}IDF$ weighting method is good in the feature filtering. In the real estate domain of the public issue, the performance of sentence weight based event sentence extraction method is improved by who and when of 3W features. Moreover, In the real estate domain of the public issue, the sentence weight based event sentence extraction method is better than the other machine learning based extraction method.

기존의 이벤트 문장 추출에 관한 연구는 학습단계에서 3W 자질을 학습하지 않고, 추출단계에서 3W 자질의 존재여부에 따른 규칙만을 적용하여 이벤트 문장을 추출하였다. 본 논문에서는 온라인 동향 분석을 위해 학습단계에서 3W 자질을 추출하고 가중치를 계산하고, 추출단계에서 3W 자질을 반영하는 문장 가중치 기반 이벤트 문장 추출 방안을 제시한다. 실험결과, 자질필터링은 $TF{\times}IDF$ 가중치 기법을 사용한 상위 30% 자질만을 사용하는 것이 가장 우수한 결과를 보였다. 공공이슈 분야인 부동산 도메인에서 문장 가중치 기반 방법은 3W 자질 중 who와 when 자질이 가장 영향을 많이 미치는 것으로 나타났다. 아울러 다른 기계학습 방법과의 비교하여 공공이슈 분야인 부동산 도메인에서 문장 가중치 기반 이벤트 문장 추출 방법이 가장 좋은 성능을 보였다.

Keywords

References

  1. H. P. Edmundson, "New Methods in Automatic Extracting," Advances in Automatic Text Summarization, The MIT Press, pp.23-42, 1999.
  2. J. Goldstein, M. Kantrowitz, V. Mittal, and J. Carbonell, "Summarizing Text Documents: Sentence Selection and Evaluation Metrics," In Proceedings of ACM-SIGIR'99, pp.121-128, 1999.
  3. C. W. Hsu, C. C. Chang, and C. J. Lin, "A practical guide to support vector classification," http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.6.3096, 2000.
  4. T. Jachims, "Text categorization with support vector machines: Learning with many relevant features," In C. Ne'dellec & C. Rouveirol (Eds.), Proceedings of the 10th European conference on machine learning, Springer, Heidelberg, DE, Chemnitz, DE., pp.137-142, 1998.
  5. M. Naughton, N. Stokes, and J. Carthy, "Sentence-level event classification in unstructured texts," Information Retrieval, Vol.13, No.2, pp.132-156, 2010. https://doi.org/10.1007/s10791-009-9113-0
  6. M. Sokolova and G. Lapalme, "A systematic analysis of performance measures for classification tasks," Information Processing & Management, Vol.45, No.4, pp.427-437, 2009. https://doi.org/10.1016/j.ipm.2009.03.002
  7. 김동욱, 강수용, 김한준, 이병정, 장재영, "사용자 프로파일을 통한 개인화 문장 추출 시스템 설계", 한국인터넷정보학회 학술발표대회 논문집, pp.213-217, 2010.
  8. 김태현, 임수종, 윤보현, 박상규 , "정보 추출을 위한 이벤트 문장 추출", 제14회 한글 및 한국어 정보처리 학술대회, 2002.
  9. 나종열, 신지애, 최기선, "VNA 집합을 이용한 뉴스기사의 중요문장 추출", 2007년도 제19회 한글 및 한국어 정보처리 학술대회, 한국정보과학회, 2007.
  10. 류제, 한광록, 손석원, 임기옥, "단어의 공기 관계 그래프를 이용한 문서의 핵심 문장 추출에 관한 연구", 정보처리학회지, 제7권, 제11호, pp.3427-3437, 2000.
  11. 임정민, 강인수, 배재학, 이종혁, "다중문서 요약에서 적응 기법을 이용한 문장 추출", 제16회 한글.언어.인지 학술대회, 2004.
  12. 이재걸, 박성배, 이상조, "2단계 문장 추출 방법을 이용한 회의록 요약", 2010년도 추계학술대회학술발표논문집, 제20권, 제2호, 한국지능시스템학회, 2010.
  13. 정운철, 고영중, 서정연, "2단계 문장 추출방법을 이용한 자동 문서 요약", 한국정보과학회 04 봄학술발표논문집(B), 한국정보과학회, 2004.
  14. 최준호, 김판구, "지식베이스 확장을 위한 핵심 문장 추출", 2010년도 춘계학술발표논문집, 한국멀티미디어학회, 2010.
  15. 홍진표, 차정원, "TextRank 알고리즘을 이용한 한국어 중요 문장 추출", 2009 한국컴퓨터종합학술대회, 한국정보과학회, 2009.
  16. http://www.cs.waikato.ac.nz/ml/weka/

Cited by

  1. A Comparative Analysis of Official Medical Tourism Websites : Korea, Thailand, Malaysia vol.15, pp.2, 2015, https://doi.org/10.5392/JKCA.2015.15.02.408