DOI QR코드

DOI QR Code

VOC Summarization and Classification based on Sentence Understanding

구문 의미 이해 기반의 VOC 요약 및 분류

  • Received : 2015.09.11
  • Accepted : 2015.11.10
  • Published : 2016.01.15

Abstract

To attain an understanding of customers' opinions or demands regarding a companies' products or service, it is important to consider VOC (Voice of Customer) data; however, it is difficult to understand contexts from VOC because segmented and duplicate sentences and a variety of dialog contexts. In this article, POS (part of speech) and morphemes were selected as language resources due to their semantic importance regarding documents, and based on these, we defined an LSP (Lexico-Semantic-Pattern) to understand the structure and semantics of the sentences and extracted summary by key sentences; furthermore the LSP was introduced to connect the segmented sentences and remove any contextual repetition. We also defined the LSP by categories and classified the documents based on those categories that comprise the main sentences matched by LSP. In the experiment, we classified the VOC-data documents for the creation of a summarization before comparing the result with the previous methodologies.

VOC(Voice of Customer)는 기업의 제품 또는 서비스에 대한 고객의 의견이나 요구를 파악할 수 있는 중요한 데이터이다. 그러나 VOC 데이터는 대화체의 특징으로 인해 내용의 분절이나 중복이 다수 존재할 뿐 아니라 다양한 내용의 대화가 포함되어 유형을 파악하는데 어려움이 있다. 본 논문에서는, 문서에서 중요한 의미를 갖는 키워드와 품사, 형태소 등을 언어 자원으로 선정하였고, 이를 바탕으로 문장의 구조 및 의미를 이해하기 위한 LSP(Lexico-Semantic-Pattern, 어휘 의미 패턴)를 정의하여 구문 의미 이해 기반의 주요 문장을 요약문으로 추출하였다. 요약문을 생성함에 있어 분절된 문장을 연결하고 중복된 의미를 갖는 문장을 줄이는 방법을 제안하였다. 또한 카테고리 별로 어휘 의미 패턴을 정의하고 어휘 의미 패턴에 매칭된 주요 문장이 속한 카테고리를 기반으로 문서를 분류하였다. 실험에서는 VOC 데이터를 대상으로 문서를 분류하고 요약문을 생성하여 기존의 방법들과 비교하였다.

Keywords

Acknowledgement

Grant : 분산환경 인메모리 기술 기반의 복합형 고속 스트림 빅데이터 처리 기술 개발

Supported by : (주)알티베이스

References

  1. R. Barzilay and M. Elhadad, "Using Lexical Chains for Text Summarization," Proc. of the TIPSTER Text Phase III Workshop, 1998.
  2. Rada Mihalcea and Paul Tarau, "TextRank: Bringing Order into Texts," Proc. of the Conference on Empirical Methods in Natural Language Processing, pp. 404-411, 2004.
  3. J. WoonChul, "Automatic Text Summarization with Two Step Sentence Extraction," KIISE, 2004.
  4. L. JaeMoon, "An Improvement Of Efficiency For kNN By Using A Heuristic," Proc. of KIPS, 2003.
  5. T. Joachims, "Text Categorization with Support Vector Machines: Learning with Many Relevant Features," Proc. of ECML, pp. 137-142, 1998.
  6. Y. Yang and X. Liu, "A re-examination of text categorization methods," Proc. of SIGIR-99, 1999.
  7. H. KyouYeol, K. MoonJong and A. YoungMin, "The method for related keyword extraction using normalized keyword weight," KIISE, 2014.
  8. Joel Larocca Neto, Alexandre D. Santos, Celso A.A. Kaestner and Alex A. Freitas, "Document Clustering and Text Summarization," Postgraduate Program in Applied Computer Science, 2000.