Browse > Article
http://dx.doi.org/10.30693/SMJ.2021.10.1.39

Method of Extracting the Topic Sentence Considering Sentence Importance based on ELMo Embedding  

Kim, Eun Hee (조선대학교 컴퓨터공학과 대학원)
Lim, Myung Jin (조선대학교 컴퓨터공학과 대학원)
Shin, Ju Hyun (조선대학교 신산업융합학부)
Publication Information
Smart Media Journal / v.10, no.1, 2021 , pp. 39-46 More about this Journal
Abstract
This study is about a method of extracting a summary from a news article in consideration of the importance of each sentence constituting the article. We propose a method of calculating sentence importance by extracting the probabilities of topic sentence, similarity with article title and other sentences, and sentence position as characteristics that affect sentence importance. At this time, a hypothesis is established that the Topic Sentence will have a characteristic distinct from the general sentence, and a deep learning-based classification model is trained to obtain a topic sentence probability value for the input sentence. Also, using the pre-learned ELMo language model, the similarity between sentences is calculated based on the sentence vector value reflecting the context information and extracted as sentence characteristics. The topic sentence classification performance of the LSTM and BERT models was 93% accurate, 96.22% recall, and 89.5% precision, resulting in high analysis results. As a result of calculating the importance of each sentence by combining the extracted sentence characteristics, it was confirmed that the performance of extracting the topic sentence was improved by about 10% compared to the existing TextRank algorithm.
Keywords
Extractive Summarization; Topic Sentence; Sentence Importance; Topic Sentence Feature; Embedding;
Citations & Related Records
연도 인용수 순위
  • Reference
1 이명호, 임명진, 신주현, "단어와 문장의 의미를 고려한 비속어 판별 방법," 스마트미디어저널, 제9권 제3호, 98-106쪽, 2020년 09월   DOI
2 박서희, "BERT Transfer Learning을 활용한 스토리 텍스트 감정 인식", 성균관대학교 석사학위 논문, 2020년 8월
3 Devlin, Jacob, et al. "Bert: Pre-training of deep bidirectional transformers for language understanding," arXiv preprint arXiv:1810.04805, 2018.
4 박찬민, 박영준, 고영중, 서정연, "한국어 ELMo 임베딩을 이용한 의미역 결정," 한국정보과학회 학술발표논문집, 608-610쪽, 2019년 06월
5 홍승연, 나승훈, 신종훈, 김영길, "BERT와 ELMo 문맥화 단어 임베딩을 이용한 한국어 의존 파싱," 한국정보과학회 학술발표논문집, 491-493쪽, 2019년 06월
6 이종권, "문장임베딩과 딥러닝기법을 활용한 관세품목분류문서의 자동 HS분류 연구", 한밭대학교 석사학위 논문, 2020년 2월
7 Page L., Brin S., Motwani R., & Winogra ,T., "The PageRank citation ranking : Bringing order to the web", 2009.
8 홍진표, 차정원, "TextRank 알고리즘을 이용한 한국어 중요 문장 추출," 한국정보과학회 학술발표논문집, 제36권, 제1C호, 311-314쪽, 2009년 06월
9 정풀잎, 안현철, "문장 위치를 고려한 고객 리뷰 감성 분석 모형," 인터넷전자상거래연구, 제19권, 제1호, 167-186쪽, 2019년 02월
10 임명진, 박원호, 신주현, "Word2Vec과 LSTM을 활용한 이별 가사 감정 분류," 스마트미디어저널, 제9권 제3호, 90-106쪽, 2020년 09월   DOI
11 김지희. "중심내용 찾기 활동을 통한 설명문 읽기의 효과 연구", 한국교원대학교 석사학위 논문, 2011년 2월
12 김원우, "중요 문장 추출 및 추상 요약을 통한 cQA시스템 질문 요약 성능 개선", 광운대학교 석사학위 논문, 2019년 2월
13 네이버 고객센터(2018), https://m.help.naver.com/support/contents/contentsView.help?contentsNo=8126 (accessed Oct., 24, 2020).
14 차준석, 김정인, 김판구, "단어 간 의미적 연관성을 고려한 어휘 체인 기반의 개선된 자동 문서요약 방법," 스마트미디어저널, 제6권, 제1호, 22-29쪽, 2017년 3월
15 고영중, 박진우, 서정연, "문장 중요도를 이용한 자동 문서 범주화," 정보과학회논문지 : 소프트웨어 및 응용, 제29권, 제6호, 417-424쪽, 2002년 6월
16 김희찬, "의미적으로 확장된 문장 간 유사도를 이용한 한국어 텍스트 자동 요약", 숭실대학교 석사학위 논문, 2015년 2월