• Title/Summary/Keyword: 문단 추출

Search Result 18, Processing Time 0.034 seconds

Keyword Weight based Paragraph Extraction Algorithm (키워드 가중치 기반 문단 추출 알고리즘)

  • Lee, Jongwon;Joo, Sangwoong;Lee, Hyunju;Jung, Hoekyung
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2017.10a
    • /
    • pp.504-505
    • /
    • 2017
  • Existing morpheme analyzers classify the words used in writing documents. A system for extracting sentences and paragraphs based on a morpheme analyzer is being developed. However, there are very few systems that compress documents and extract important paragraphs. The algorithm proposed in this paper calculates the weights of the keyword written in the document and extracts the paragraphs containing the keyword. Users can reduce the time to understand the document by reading the paragraphs containing the keyword without reading the entire document. In addition, since the number of extracted paragraphs differs according to the number of keyword used in the search, the user can search various patterns compared to the existing system.

  • PDF

Document Analysis based Main Requisite Extraction System (문서 분석 기반 주요 요소 추출 시스템)

  • Lee, Jongwon;Yeo, Ilyeon;Jung, Hoekyung
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.23 no.4
    • /
    • pp.401-406
    • /
    • 2019
  • In this paper, we propose a system for analyzing documents in XML format and in reports. The system extracts the paper or reports of keywords, shows them to the user, and then extracts the paragraphs containing the keywords by inputting the keywords that the user wants to search within the document. The system checks the frequency of keywords entered by the user, calculates weights, and removes paragraphs containing only keywords with the lowest weight. Also, we divide the refined paragraphs into 10 regions, calculate the importance of the paragraphs per region, compare the importance of each region, and inform the user of the main region having the highest importance. With these features, the proposed system can provide the main paragraphs with higher compression ratio than analyzing the papers or reports using the existing document analysis system. This will reduce the time required to understand the document.

XML Document Keyword Weight Analysis based Paragraph Extraction Model (XML 문서 키워드 가중치 분석 기반 문단 추출 모델)

  • Lee, Jongwon;Kang, Inshik;Jung, Hoekyung
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.21 no.11
    • /
    • pp.2133-2138
    • /
    • 2017
  • The analysis of existing XML documents and other documents was centered on words. It can be implemented using a morpheme analyzer, but it can classify many words in the document and cannot grasp the core contents of the document. In order for a user to efficiently understand a document, a paragraph containing a main word must be extracted and presented to the user. The proposed system retrieves keyword in the normalized XML document. Then, the user extracts the paragraphs containing the keyword inputted for searching and displays them to the user. In addition, the frequency and weight of the keyword used in the search are informed to the user, and the order of the extracted paragraphs and the redundancy elimination function are minimized so that the user can understand the document. The proposed system can minimize the time and effort required to understand the document by allowing the user to understand the document without reading the whole document.

A Study on Classifying and Analyzing the News Form in the Web for Automatic Summarization (자동 요약을 위한 웹 기사들의 유형 구분과 주연문맥 추출에 관한 연구)

  • Lee Tae-Young
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 2006.08a
    • /
    • pp.169-174
    • /
    • 2006
  • 웹 상의 기사들의 종류를 보도, 기획/해설, 인터뷰/대담, 논설, 신변잡기로 나누어 자동요약을 위한 프레임을 작성하였다. 각 기사 프레임들은 글 구조적으로 분석되어 '사건, 상황, 연관, 과정, 원인, 결과, 결론, 전망, 방안, 평가 등'과 같은 문단 슬롯이 부여되었고 문단 슬롯은 다시 문장 슬롯으로 세분되었다. 'if-needed' 패싯으로 육하원칙인 '주체, 객체, 시간, 장소, 원인, 방법'을 택하였다. 슬롯이나 패싯의 실제값들을 추출 표현하는 과정에서 문구의 수사적 역할과 단어 최상위 범주 및 줄거리 단위를 참조하였다. 기사의 유형과 문단 및 문장 슬롯을 판별하기 위해서 유형 판별 규칙과 슬롯 판별 규칙을 구비하였다.

  • PDF

Answer Extraction using Concept Rules in Concept-based Question-Answering System (개념 기반 질의-응답 시스템에서 개념 규칙을 이용한 해답 추출)

  • Kang, Yu-Hwan;Ahn, Young-Min;Seo, Young-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2005.10a
    • /
    • pp.184-188
    • /
    • 2005
  • 본 논문에서는 개념 기반 질의-응답 시스템에서 개념 규칙을 이용하여 해답을 추출하는 방법에 대하여 기술한다. 개념 기반 질의-응답 시스템은 질의문의 각 유형별 개념 정보를 이용하여 질의문을 분석하고 해답을 추출하는 시스템이다. 질의문의 키워드들을 개념에 따라 분류하고, 질의 유형별로 공통적으로 나타나는 개념들을 이용하여 개념 프레임을 정의한다. 또한, 개념 정보와 해답이 들어 있는 문장과 문단에서 공통적으로 나타나는 구문 특성을 이용하여 해답 추출을 위한 규칙을 작성한다. 개념 규칙은 형태 정보와 구문 정보를 포함하며, 질의 유형별로 따로 작성한다. 작성된 규칙을 이용하여 문서로부터 해답이 들어 있는 문장과 문단을 추출한 후 질의문의 해답 유형에 해당하는 개체를 해답 후보로 제시한다. 실험 결과 개념 규칙을 이용한 해답 추출의 정확도가 매우 높게 나타났다.

  • PDF

SERADE: Section Representation Aggregation Retrieval for Long Document Ranking (SERADE : 섹션 표현 기반 문서 임베딩 모델을 활용한 긴 문서 검색 성능 개선)

  • Hye-In Jung;Hyun-Kyu Jeon;Ji-Yoon Kim;Chan-Hyeong Lee;Bong-Su Kim
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.135-140
    • /
    • 2022
  • 최근 Document Retrieval을 비롯한 대부분의 자연어처리 분야에서는 BERT와 같이 self-attention을 기반으로 한 사전훈련 모델을 활용하여 SOTA(state-of-the-art)를 이루고 있다. 그러나 self-attention 메커니즘은 입력 텍스트 길이의 제곱에 비례하여 계산 복잡도가 증가하기 때문에, 해당 모델들은 선천적으로 입력 텍스트의 길이가 제한되는 한계점을 지닌다. Document Retrieval 분야에서는, 문서를 특정 토큰 길이 단위의 문단으로 나누어 각 문단의 유사 점수 또는 표현 벡터를 추출한 후 집계함으로서 길이 제한 문제를 해결하는 방법론이 하나의 주류를 이루고 있다. 그러나 논문, 특허와 같이 섹션 형식(초록, 결론 등)을 갖는 문서의 경우, 섹션 유형에 따라 고유한 정보 특성을 지닌다. 따라서 문서를 단순히 특정 길이의 문단으로 나누어 학습하는 PARADE와 같은 기존 방법론은 각 섹션이 지닌 특성을 반영하지 못한다는 한계점을 지닌다. 본 논문에서는 섹션 유형에 대한 정보를 포함하는 문단 표현을 학습한 후, 트랜스포머 인코더를 사용하여 집계함으로서, 결과적으로 섹션의 특징과 상호 정보를 학습할 수 있도록 하는 SERADE 모델을 제안하고자 한다. 실험 결과, PARADE-Transformer 모델과 비교하여 평균 3.8%의 성능 향상을 기록하였다.

  • PDF

Emotion Prediction of Paragraph using Big Data Analysis (빅데이터 분석을 이용한 문단 내의 감정 예측)

  • Kim, Jin-su
    • Journal of Digital Convergence
    • /
    • v.14 no.11
    • /
    • pp.267-273
    • /
    • 2016
  • Creation and Sharing of information which is structured data as well as various unstructured data. makes progress actively through the spread of mobile. Recently, Big Data extracts the semantic information from SNS and data mining is one of the big data technique. Especially, the general emotion analysis that expresses the collective intelligence of the masses is utilized using large and a variety of materials. In this paper, we propose the emotion prediction system architecture which extracts the significant keywords from social network paragraphs using n-gram and Korean morphological analyzer, and predicts the emotion using SVM and these extracted emotion features. The proposed system showed 82.25% more improved recall rate in average than previous systems and it will help extract the semantic keyword using morphological analysis.

Extract Snippets Suitable for Search Intent (검색의도에 적합한 스니펫 추출)

  • Lee, Hyeon-gu;Yang, Yunyeong;Kim, Eunbyul;Cha, Woojune;Roh, Yunyoung;Kim, Eunyoung;Choi, Gyuhyeon;Shin, Dongwook;Park, Chanhoon;Kang, Inho
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.241-246
    • /
    • 2021
  • 스니펫 추출은 정보검색에서 주요한 문서 정보를 짧은 문단 형태로 보여주는 것으로 사용자가 검색결과를 좀 더 효율적으로 확인할 수 있게 도와준다. 그러나 기존 스니펫은 어휘가 일치하는 문장을 찾아 보여주기에 검색의도가 반영되기 어렵다. 또한 의미적 정답을 찾기 위해 질의응답 방법론이 응용되고 있지만 오픈 도메인 환경에서 품질이 낮은 문제가 있다. 본 논문은 이러한 문제를 해결하기 위해 스니펫 추출, 의도 부착, 검증 3단계로 스니펫을 추출하여 추출된 스니펫이 질의 의도에 적합하게 추출되도록 하는 방법을 제안한다. 실험 결과 전통적인 스니펫보다 만족도가 높은 것을 보였고, 스니펫 추출만 했을 때보다 의도 부착, 검증을 하였을 때 정확도가 0.3165만큼 향상되는 것을 보였다.

  • PDF

Thematic Word Extraction from Book Based on Keyword Weighting Method (키워드 가중치 방식에 근거한 도서 본문 주제어 추출)

  • Ahn, Hee-Jeong;Choi, Gun-Hee;Kim, Seung-Hoon
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2015.01a
    • /
    • pp.19-22
    • /
    • 2015
  • 본 논문에서는 문장 및 문단에서 키워드의 역할에 따른 가중치에 근거하여 도서 본문에서 주제어를 추출하는 방법을 제안한다. 기존의 주제어 추출 방식은 도서 본문이 아닌 신문이나 논문에 대한 방식이므로 도서 본문에서의 주제어 추출에 그대로 적용하기에는 어려움이 있다. 따라서 본 논문에서는 빈도수뿐만 아니라 문장 내 중요 요소에 대한 가중치와 중요 문장에 대한 가중치를 후보 키워드에 부여하는 방식을 제안하였다. 제안한 계산 방식을 비문학 도서에 대하여 실험한 결과, 빈도수만으로 주제어를 추출한 기존 방식보다 본 논문에서 제안한 방식의 주제어 추출 결과의 정확도가 향상되는 것을 확인하였다.

  • PDF

Semi-supervised GPT2 for News Article Recommendation with Curriculum Learning (준 지도 학습과 커리큘럼 학습을 이용한 유사 기사 추천 모델)

  • Seo, Jaehyung;Oh, Dongsuk;Eo, Sugyeong;Park, Sungjin;Lim, Heuiseok
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.495-500
    • /
    • 2020
  • 뉴스 기사는 반드시 객관적이고 넓은 시각으로 정보를 전달하지 않는다. 따라서 뉴스 기사를 기존의 추천 시스템과 같이 개인의 관심사나 사적 정보를 바탕으로 선별적으로 추천하는 것은 바람직하지 않다. 본 논문에서는 최대한 객관적으로 다양한 시각에서 비슷한 사건과 인물에 대해서 판단할 수 있도록 유사도 기반의 기사 추천 모델을 제시한다. 길이가 긴 문서 사이의 유사도를 측정하기 위해 GPT2 [1]언어 모델을 활용했다. 이 과정에서 단방향 디코더 모델인 GPT2 [1]의 단점을 추가 학습으로 개선했으며, 저장 공간의 효율과 핵심 문단 추출을 위해 BM25 [2]함수를 사용했다. 그리고 준 지도 학습 [3]을 통해 유사도 레이블링이 되어있지 않은 최신 뉴스 기사에 대해서도 자가 학습을 진행했으며, 이와 함께 길이가 긴 문단에 대해서도 효과적으로 학습할 수 있도록 문장 길이를 기준으로 3개의 단계로 나누어진 커리큘럼 학습 [4]방식을 적용했다.

  • PDF