• 제목/요약/키워드: sentence based extraction

검색결과 51건 처리시간 0.022초

온라인 동향 분석을 위한 이벤트 문장 추출 방안 (Event Sentence Extraction for Online Trend Analysis)

  • 윤보현
    • 한국콘텐츠학회논문지
    • /
    • 제12권9호
    • /
    • pp.9-15
    • /
    • 2012
  • 기존의 이벤트 문장 추출에 관한 연구는 학습단계에서 3W 자질을 학습하지 않고, 추출단계에서 3W 자질의 존재여부에 따른 규칙만을 적용하여 이벤트 문장을 추출하였다. 본 논문에서는 온라인 동향 분석을 위해 학습단계에서 3W 자질을 추출하고 가중치를 계산하고, 추출단계에서 3W 자질을 반영하는 문장 가중치 기반 이벤트 문장 추출 방안을 제시한다. 실험결과, 자질필터링은 $TF{\times}IDF$ 가중치 기법을 사용한 상위 30% 자질만을 사용하는 것이 가장 우수한 결과를 보였다. 공공이슈 분야인 부동산 도메인에서 문장 가중치 기반 방법은 3W 자질 중 who와 when 자질이 가장 영향을 많이 미치는 것으로 나타났다. 아울러 다른 기계학습 방법과의 비교하여 공공이슈 분야인 부동산 도메인에서 문장 가중치 기반 이벤트 문장 추출 방법이 가장 좋은 성능을 보였다.

문장 정보량 기반 문서 추출 요약의 효과성 제고 (Improving the effectiveness of document extraction summary based on the amount of sentence information)

  • 김은희;임명진;신주현
    • 스마트미디어저널
    • /
    • 제11권3호
    • /
    • pp.31-38
    • /
    • 2022
  • 문서 추출 요약 연구에서는 문장 간 관계를 기반으로 중요한 문장을 선택하는 다양한 방법들이 제안되었다. 문장의 도합유사도를 이용한 한국어 문서 요약에서는 문장의 도합유사도를 문장 정보량으로 보고, 이를 기준으로 중요한 문장을 선택하여 요약문을 추출하였다. 그러나 이는 각 문장이 전체 문서에 기여하는 다양한 중요도를 고려하지 못한다는 문제가 있다. 이에 본 연구에서는 문장의 정량적 정보량과 의미적 정보량을 기반으로 중요한 문장을 선택하여 요약문을 제공하는 문서 추출 요약 방법을 제안한다. 실험 결과, 추출 문장 일치도는 58.56%, ROUGE 점수가 34로 비교 연구보다 우수한 성능을 보였으며, 딥러닝 기반 방법과 비교해 추출 방법은 가볍지만 성능은 유사하였다. 이를 통해 문장 간 의미적 유사성을 기반으로 정보를 압축해 나가는 방식이 문서 추출 요약에서 중요한 접근 방법임을 확인하였다. 또한 빠르게 추출된 요약문을 기반으로 문서 생성요약단계를 효과적으로 수행할 수 있으리라 기대한다.

뉴스 웹 페이지에서 기사 본문 추출에 관한 연구 (A Study on Extracting News Contents from News Web Pages)

  • 이용구
    • 정보관리학회지
    • /
    • 제26권1호
    • /
    • pp.305-320
    • /
    • 2009
  • 웹을 통해 제공되는 뉴스 페이지의 경우 필요한 정보 뿐 아니라 많은 불필요한 정보를 담고 있다. 이러한 불필요한 정보는 뉴스를 처리하는 시스템의 성능 저하와 비효율성을 가져온다. 이 연구에서는 웹 페이지로부터 뉴스 콘텐츠를 추출하기 위해 문장과 블록에 기반한 뉴스 기사 추출 방법을 제시하였다. 또한 이들을 결합하여 최적의 성능을 가져올 수 있는 방안을 모색하였다. 실험 결과, 웹 페이지에 대해 하이퍼링크 텍스트를 제거한 후 문장을 이용한 추출 방법을 적용하였을 때 효과적이었으며, 여기에 블록을 이용한 추출 방법과 결합하였을 때 더 좋은 결과를 가져왔다. 문장을 이용한 추출 방법은 추출 재현율을 높여주는 효과가 있는 것으로 나타났다.

Opinion Extraction based on Syntactic Pieces

  • Aoki, Suguru;Yamamoto, Kazuhide
    • 한국언어정보학회:학술대회논문집
    • /
    • 한국언어정보학회 2007년도 정기학술대회
    • /
    • pp.76-85
    • /
    • 2007
  • This paper addresses a task of opinion extraction from given documents and its positive/negative classification. We propose a sentence classification method using a notion of syntactic piece. Syntactic piece is a minimum unit of structure, and is used as an alternative processing unit of n-gram and whole tree structure. We compute its semantic orientation, and classify opinion sentences into positive or negative. We have conducted an experiment on more than 5000 opinion sentences of multiple domains, and have proven that our approach attains high performance at 91% precision.

  • PDF

스무고개 게임을 위한 음성인식 (Speech Recognition for twenty questions game)

  • 노용완;윤재선;홍광석
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2002년도 하계종합학술대회 논문집(4)
    • /
    • pp.203-206
    • /
    • 2002
  • In this paper, we present a sentence speech recognizer for twenty questions game. The proposed approaches for speaker-independent sentence speech recognition can be divided into two steps. One is extraction of the number of syllables in eojeol for candidate reduction, and the other is knowledge based language model for sentence recognition. For twenty questions game, we implemented speech recognizer using 956 sentences and 1095 eojeols. The results obtained in our experiments were 87% sentence recognition rate and 90.15% eojeol recognition rate.

  • PDF

Towards Effective Entity Extraction of Scientific Documents using Discriminative Linguistic Features

  • Hwang, Sangwon;Hong, Jang-Eui;Nam, Young-Kwang
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제13권3호
    • /
    • pp.1639-1658
    • /
    • 2019
  • Named entity recognition (NER) is an important technique for improving the performance of data mining and big data analytics. In previous studies, NER systems have been employed to identify named-entities using statistical methods based on prior information or linguistic features; however, such methods are limited in that they are unable to recognize unregistered or unlearned objects. In this paper, a method is proposed to extract objects, such as technologies, theories, or person names, by analyzing the collocation relationship between certain words that simultaneously appear around specific words in the abstracts of academic journals. The method is executed as follows. First, the data is preprocessed using data cleaning and sentence detection to separate the text into single sentences. Then, part-of-speech (POS) tagging is applied to the individual sentences. After this, the appearance and collocation information of the other POS tags is analyzed, excluding the entity candidates, such as nouns. Finally, an entity recognition model is created based on analyzing and classifying the information in the sentences.

주성분 보유수에 따른 중요 용어 추출의 비교 (Comparison of Significant Term Extraction Based on the Number of Selected Principal Components)

  • 이창범;옥철영;박혁로
    • 정보처리학회논문지B
    • /
    • 제13B권3호
    • /
    • pp.329-336
    • /
    • 2006
  • 문서를 구성하는 단어들은 서로 연관이 있다는 정보를 충분히 이용할 수 있는 다변량 분석 방법 중, 주성분분석(Principal Component Analysis)을 이용하여 중요 용어를 추출하고자 한다. 본 논문에서는 주성분분석의 분석 대상을 용어 사이의 공분산행렬이 아닌 상관행렬을 이용한다. 그리고, 중요 용어를 추출하기 위해서, 보유해야 할 주성분 개수와 주성분과 용어 사이의 상관계수에 대한 최적의 임계치를 찾고자 한다. 283건의 신문기사를 대상으로, 추출된 용어에 기반한 문장 추출 실험 결과, 첫 6개까지의 주성분과 상관계수 |0.4|라는 조건에서 가장 좋은 성능을 보였다.

Self-Attention을 적용한 문장 임베딩으로부터 이미지 생성 연구 (A Study on Image Generation from Sentence Embedding Applying Self-Attention)

  • 유경호;노주현;홍택은;김형주;김판구
    • 스마트미디어저널
    • /
    • 제10권1호
    • /
    • pp.63-69
    • /
    • 2021
  • 사람이 어떤 문장을 보고 그 문장에 대해 이해하는 것은 문장 안에서 주요한 단어를 이미지로 연상시켜 그 문장에 대해 이해한다. 이러한 연상과정을 컴퓨터가 할 수 있도록 하는 것을 text-to-image라고 한다. 기존 딥 러닝 기반 text-to-image 모델은 Convolutional Neural Network(CNN)-Long Short Term Memory(LSTM), bi-directional LSTM을 사용하여 텍스트의 특징을 추출하고, GAN에 입력으로 하여 이미지를 생성한다. 기존 text-to-image 모델은 텍스트 특징 추출에서 기본적인 임베딩을 사용하였으며, 여러 모듈을 사용하여 이미지를 생성하므로 학습 시간이 오래 걸린다. 따라서 본 연구에서는 자연어 처리분야에서 성능 향상을 보인 어텐션 메커니즘(Attention Mechanism)을 문장 임베딩에 사용하여 특징을 추출하고, 추출된 특징을 GAN에 입력하여 이미지를 생성하는 방법을 제안한다. 실험 결과 기존 연구에서 사용되는 모델보다 inception score가 높았으며 육안으로 판단하였을 때 입력된 문장에서 특징을 잘 표현하는 이미지를 생성하였다. 또한, 긴 문장이 입력되었을 때에도 문장을 잘 표현하는 이미지를 생성하였다.

모바일 환경에서 사용자 정보를 이용한 스토리 생성 방법 (Story Generation Method using User Information in Mobile Environment)

  • 홍진표;차정원
    • 인터넷정보학회논문지
    • /
    • 제14권3호
    • /
    • pp.81-90
    • /
    • 2013
  • 모바일 기기는 사용자가 늘 지니고 다니기 때문에 사용자의 주변 환경이나 행동 양상에 대한 매우 유용한 정보를 얻을 수 있다. 본 논문에서는 이들 정보를 하루 단위로 수집하여 하룻동안에 있었던 사용자의 행동에 대한 주제를 추출하고 이를 이용해 자동으로 일기를 생성하는 방법을 제안한다. 이를 위해 (1) 모바일 기기에서 사용자 행동 양상에 대한 정보를 모두 수집하고 (2) 수집한 정보로부터 개체명과 주제 연관 정보를 추출해 사용자가 그 날 있었던 일에 대한 주제를 추출한다. (3) (2)의 결과로부터 주제와 연관된 사건인 에피소드를 결정하고 (4) 문장 템플릿을 이용하여 문장을 생성한 후, 주제별 혹은 시간별로 스토리를 구성한다. 본 논문에서 제안한 방법은 기존의 방법보다 간단하기 때문에 모바일 기기 내에서도 수행이 가능하므로 개인 정보를 유출할 수 있는 문제를 최소화 할 수 있다. 또한, 본 논문에서는 문장의 형태로 정보를 제공하기 때문에 보다 많은 정보를 표현할 수 있다. 그리고 문장 생성 과정에 생성되는 주제 정보는 사용자의 행동 양상을 파악하는 자료로 이용할 수 있으므로 이를 바탕으로 한 사용자 맞춤형 서비스를 제공하는데 도움을 줄 수 있을 것으로 기대된다.

Mining Parallel Text from the Web based on Sentence Alignment

  • Li, Bo;Liu, Juan;Zhu, Huili
    • 한국언어정보학회:학술대회논문집
    • /
    • 한국언어정보학회 2007년도 정기학술대회
    • /
    • pp.285-292
    • /
    • 2007
  • The parallel corpus is an important resource in the research field of data-driven natural language processing, but there are only a few parallel corpora publicly available nowadays, mostly due to the high labor force needed to construct this kind of resource. A novel strategy is brought out to automatically fetch parallel text from the web in this paper, which may help to solve the problem of the lack of parallel corpora with high quality. The system we develop first downloads the web pages from certain hosts. Then candidate parallel page pairs are prepared from the page set based on the outer features of the web pages. The candidate page pairs are evaluated in the last step in which the sentences in the candidate web page pairs are extracted and aligned first, and then the similarity of the two web pages is evaluate based on the similarities of the aligned sentences. The experiments towards a multilingual web site show the satisfactory performance of the system.

  • PDF