• Title/Summary/Keyword: 문장 생성 모형

Search Result 19, Processing Time 0.034 seconds

A Text Summarization Model Based on Sentence Clustering (문장 클러스터링에 기반한 자동요약 모형)

  • 정영미;최상희
    • Journal of the Korean Society for information Management
    • /
    • v.18 no.3
    • /
    • pp.159-178
    • /
    • 2001
  • This paper presents an automatic text summarization model which selects representative sentences from sentence clusters to create a summary. Summary generation experiments were performed on two sets of test documents after learning the optimum environment from a training set. Centroid clustering method turned out to be the most effective in clustering sentences, and sentence weight was found more effective than the similarity value between sentence and cluster centroid vectors in selecting a representative sentence from each cluster. The result of experiments also proves that inverse sentence weight as well as title word weight for terms and location weight for sentences are effective in improving the performance of summarization.

  • PDF

Character spotting using image-based stochastic models (이미지 기반 확률모델을 이용한 문자검출)

  • 김선규;신봉기
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.04b
    • /
    • pp.484-486
    • /
    • 2001
  • 본 논문에서는 의사 2차원 은닉 마르코프 모델의 구조로 생성한 마르코프 체인형 확률모형에 의한 인쇄체문자 이미지의 모델링에 대해 논한다. 이미지 데이터에서 바로 모델을 실시간 생성하며 문자 인식 및 검출에 응용할 수 있다. 실험에 의하면, 이 방법을 통해 특정 낱말이 포함된 문장에서 숫자를 인식, 한글을 검출할 수 있음을 확인하였다.

  • PDF

Text Undestanding System for Summarization (텍스트 이해 모델에 기반한 정보 검색 시스템)

  • Song, In-Seok;Park, Hyuk-Ro
    • Annual Conference on Human and Language Technology
    • /
    • 1997.10a
    • /
    • pp.1-6
    • /
    • 1997
  • 본 논문에서는 인지적 텍스트 이해 모형을 제시하고 이에 기반한 자동 요약 시스템을 구현하였다. 문서는 정보의 단순한 집합체가 아닌 정형화된 언어 표현 양식으로서 단어의 의미적 정보와 함께 표현 양식, 문장의 구조와 문서의 구성을 통해 정보를 전달한다. 요약 목적의 텍스트 이해 및 분석 과정을 위해 경제 분야 기사 1000건에 대한 수동 요약문을 분석, 이해 모델을 정립하였고. 경제 분야 기사 1000건에 대한 테스트 결과를 토대로 문장간의 관계, 문서의 구조에서 요약 정보 추출에 사용되는 정보를 분석하였다. 본 텍스트 이해 모형은 단어 빈도수에 의존하는 통계적 모델과 비교해 볼 때, 단어 간의 관련성을 찾아내고, 문서구조정보에 기반한 주제문 추출 및 문장간의 관계를 효과적으로 사용함으로서 정보를 생성한다. 그리고 텍스트 이해 과정에서 사용되는 요약 지식과 구조 분석정보의 상관관계를 체계적으로 연결함으로서 자동정보 추출에서 야기되는 내용적 만족도 문제를 보완한다.

  • PDF

A Study on an Automatic Summarization System Using Verb-Based Sentence Patterns (술어기반 문형정보를 이용한 자동요약시스템에 관한 연구)

  • 최인숙;정영미
    • Journal of the Korean Society for information Management
    • /
    • v.18 no.4
    • /
    • pp.37-55
    • /
    • 2001
  • The purpose of this study is to present a text summarization system using a knowledge base containing information about verbs and their arguments that are statistically obtained from a subject domain. The system consists of two modules: the training module and the summarization module. The training module is to extract cue verbs and their basic sentence patterns by counting the frequency of verbs and case markers respectively, and the summarization module is substantiate basic sentence patterns and to generate summaries. Basic sentence patterns are substantiated by applying substantiation rules to the syntactics structure of sentences. A summary is then produced by connecting simple sentences that the are generated through the substantiation module of basic sentence patterns. ‘robbery’in the daily newspapers are selected for a test collection. The system generates natural summaries without losing any essential information by combining both cue verbs and essential arguments. In addition, the use of statistical techniques makes it possible to apply this system to other subject domains through its learning capability.

  • PDF

Korean Sentence Generation Using Phoneme-Level LSTM Language Model (한국어 음소 단위 LSTM 언어모델을 이용한 문장 생성)

  • Ahn, SungMahn;Chung, Yeojin;Lee, Jaejoon;Yang, Jiheon
    • Journal of Intelligence and Information Systems
    • /
    • v.23 no.2
    • /
    • pp.71-88
    • /
    • 2017
  • Language models were originally developed for speech recognition and language processing. Using a set of example sentences, a language model predicts the next word or character based on sequential input data. N-gram models have been widely used but this model cannot model the correlation between the input units efficiently since it is a probabilistic model which are based on the frequency of each unit in the training set. Recently, as the deep learning algorithm has been developed, a recurrent neural network (RNN) model and a long short-term memory (LSTM) model have been widely used for the neural language model (Ahn, 2016; Kim et al., 2016; Lee et al., 2016). These models can reflect dependency between the objects that are entered sequentially into the model (Gers and Schmidhuber, 2001; Mikolov et al., 2010; Sundermeyer et al., 2012). In order to learning the neural language model, texts need to be decomposed into words or morphemes. Since, however, a training set of sentences includes a huge number of words or morphemes in general, the size of dictionary is very large and so it increases model complexity. In addition, word-level or morpheme-level models are able to generate vocabularies only which are contained in the training set. Furthermore, with highly morphological languages such as Turkish, Hungarian, Russian, Finnish or Korean, morpheme analyzers have more chance to cause errors in decomposition process (Lankinen et al., 2016). Therefore, this paper proposes a phoneme-level language model for Korean language based on LSTM models. A phoneme such as a vowel or a consonant is the smallest unit that comprises Korean texts. We construct the language model using three or four LSTM layers. Each model was trained using Stochastic Gradient Algorithm and more advanced optimization algorithms such as Adagrad, RMSprop, Adadelta, Adam, Adamax, and Nadam. Simulation study was done with Old Testament texts using a deep learning package Keras based the Theano. After pre-processing the texts, the dataset included 74 of unique characters including vowels, consonants, and punctuation marks. Then we constructed an input vector with 20 consecutive characters and an output with a following 21st character. Finally, total 1,023,411 sets of input-output vectors were included in the dataset and we divided them into training, validation, testsets with proportion 70:15:15. All the simulation were conducted on a system equipped with an Intel Xeon CPU (16 cores) and a NVIDIA GeForce GTX 1080 GPU. We compared the loss function evaluated for the validation set, the perplexity evaluated for the test set, and the time to be taken for training each model. As a result, all the optimization algorithms but the stochastic gradient algorithm showed similar validation loss and perplexity, which are clearly superior to those of the stochastic gradient algorithm. The stochastic gradient algorithm took the longest time to be trained for both 3- and 4-LSTM models. On average, the 4-LSTM layer model took 69% longer training time than the 3-LSTM layer model. However, the validation loss and perplexity were not improved significantly or became even worse for specific conditions. On the other hand, when comparing the automatically generated sentences, the 4-LSTM layer model tended to generate the sentences which are closer to the natural language than the 3-LSTM model. Although there were slight differences in the completeness of the generated sentences between the models, the sentence generation performance was quite satisfactory in any simulation conditions: they generated only legitimate Korean letters and the use of postposition and the conjugation of verbs were almost perfect in the sense of grammar. The results of this study are expected to be widely used for the processing of Korean language in the field of language processing and speech recognition, which are the basis of artificial intelligence systems.

A comparative study of Entity-Grid and LSA models on Korean sentence ordering (한국어 텍스트 문장정렬을 위한 개체격자 접근법과 LSA 기반 접근법의 활용연구)

  • Kim, Youngsam;Kim, Hong-Gee;Shin, Hyopil
    • Korean Journal of Cognitive Science
    • /
    • v.24 no.4
    • /
    • pp.301-321
    • /
    • 2013
  • For the task of sentence ordering, this paper attempts to utilize the Entity-Grid model, a type of entity-based modeling approach, as well as Latent Semantic analysis, which is based on vector space modeling, The task is well known as one of the fundamental tools used to measure text coherence and to enhance text generation processes. For the implementation of the Entity-Grid model, we attempt to use the syntactic roles of the nouns in the Korean text for the ordering task, and measure its impact on the result, since its contribution has been discussed in previous research. Contrary to the case of German, it shows a positive result. In order to obtain the information on the syntactic roles, we use a strategy of using Korean case-markers for the nouns. As a result, it is revealed that the cues can be helpful to measure text coherence. In addition, we compare the results with the ones of the LSA-based model, discussing the advantages and disadvantages of the models, and options for future studies.

  • PDF

괴델의 불완전성 정리:증명된 신화(神話)?

  • Hong, Seong-Gi
    • Korean Journal of Logic
    • /
    • v.5 no.2
    • /
    • pp.39-66
    • /
    • 2002
  • 일반적으로 엄밀한 방법을 통하여 증명되었다고 말해지는 괴델의 불완전성 정리는 일련의 전제와 배경지식이 요구된다고 하겠다. 이들 중에서 무엇보다도 중요한 것은 정리의 증명에 사용되는 메타언어상의 수학적 참에 대한 개념이다. 일단 확인할 수 있는 것은 "증명도, 반증도 되지 않지만 참인 산수문장의 존재"라는 불완전성 정리의 내용에서 괴델이 가정하고 있는 수학적 참의 개념이 구문론적인 증명개념으로부터 완전히 독립되어야 한다는 점이다. 문제는 그가 가정하고 있는 수학적 참의 개념이 도대체 무엇이어야만 하겠는가라는 점이다. 이 논문은 이 질문과 관련하여 내용적으로 3부분으로 나누어 질 수 있다. I. 괴델의 정리의 증명에 필요한 전제들 및 표의 도움을 얻어 자세히 제시되는 증명과정의 개략도를 통해 문제의 지형도를 조감하였다. II, III. 비트겐슈타인의 괴델비판을 중심으로, "일련의 글자꼴이 산수문장이다"라는 주장의 의미에 대한 상식적 비판 및 해석에 바탕을 둔 모형이론에 대한 대안제시를 통하여 괴델의 정리를 증명하기 위해 필요한 산수적 참에 관한 전제가 결코 "확보된 것이 아니다"라는 점을 밝혔다. IV. 괴델의 정리에 대한 앞의 비판이 초수학적 전제에 대한 것이라면, 3번째 부분에서는 공리체계에서 생성 가능한 표현의 증명여부와 관련된 쌍조건문이 그 도입에 필수적인 괴델화가 갖는 임의성으로 인해 양쪽의 문장의 참, 거짓 여부가 서로 독립적으로 판단 가능하여야만 한다는 점에(외재적 관계!) 착안하여 궁극적으로 자기 자신의 증명여부를 판단하게 되는 한계상황에 도달할 경우(대각화와 관련된 표 참조) 그 독립성이 상실됨으로 인해 사실상 기능이 정지되어야만 한다는 점, 그럼에도 불구하고 이 한계상황을 간파할 경우(내재적 관계로 바뀜!)항상 순환논법을 피할 수 없다는 점을 밝혔다. 비유적으로 거울이 모든 것을 비출 수 있어도 자기 스스로를 비출 수 없다는 점과 같으며, 공리체계 내 표현의 증명여부를 그 체계내의 표현으로 판별하는 괴델의 거울 역시 스스로를 비출 수는 없다는 점을 밝혔다. 따라서 괴델문장이 산수문장에 속한다는 믿음은, 그 문장의 증명, 반증 여부도 아니고 또 그 문장의 사용에서 오는 것도 아니고, 플라톤적 수의 세계에 대한 그 어떤 직관에서 나오는 것도 아니다. 사실상 구문론적 측면을 제외하고는 그 어떤 것으로부터도 괴델문장이 산수문장이라는 근거는 없다. 그럼에도 불구하고 괴델문장을 산수문장으로 볼 경우(괴델의 정리의 증명과정이라는 마술을 통해!), 그것은 확보된 구성요소로부터 조합된 문장이 아니라 전체가 서로 분리불가능한 하나의 그림이라고 보아야한다. 이것은 비트겐슈타인이 공리를 그림이라고 본 것과 완전히 일치하는 맥락이다. 바론 그런 점에서 괴델문장은 새로운 공리로 도입된 것과 사실은 다름이 없다.

  • PDF

Automatic Text Summarization using Noun-Verb Cooccurrence Pattern (명사-동사 공기패턴을 이용한 문서 자동 요약)

  • Nam, Ki-Jong;Lee, Chang-Beom;Kang, Dae-Wook;Park, Hyuk-Ro
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.11a
    • /
    • pp.611-614
    • /
    • 2002
  • 문서 자동 요약은 입력된 문서에 대해 컴퓨터가 자동으로 요약을 생성하는 과정을 의미한다. 즉, 컴퓨터가 문서의 기본적인 내용을 유지하면서 문서의 복잡도 즉 문서의 길이를 줄이는 작업이다. 효율적인 정보 접근을 제공함과 동시에 정보 과적재를 해결하기 위한 하나의 방법으로 문서 자동요약에 관한 연구가 활발히 진행되고 있다. 본 논문의 목적은 어휘 연관성 정보를 이용하여 한국어 문서를 자동으로 요약하는 효율적이며 효과적인 모형을 개발하는 것이다. 제안한 방법에서는 신문기사와 같은 특정 부류에 국한되는 단어간의 어휘연관성을 이용하여 명사-명사 공기패턴과 명사-동사 공기패턴을 구축하여 문서요약에 이용한다. 크게 불용어 처리 단계, 공기패턴 구축 단계, 문장 중요도 계산 단계, 요약 생성단계의 네 단계로 나누어 요약을 생성한다. 30% 중요문장 추출된 신문기사를 대상으로 평가한 결과 명사-명사 공기패턴과 빈도만을 이용한 방법보다 명사-동사 공기패턴을 이용한 방법이 좋은 결과를 가져 왔다.

  • PDF

A Corpus-based Hybrid Model for Morphological Analysis and Part-of-Speech Tagging (형태소 분석 및 품사 부착을 위한 말뭉치 기반 혼합 모형)

  • Lee, Seung-Wook;Lee, Do-Gil;Rim, Hae-Chang
    • Journal of the Korea Society of Computer and Information
    • /
    • v.13 no.7
    • /
    • pp.11-18
    • /
    • 2008
  • Korean morphological analyzer generally generates multiple candidates, and then selects the most likely one among multiple candidates. As the number of candidates increases, the chance that the correctly analyzed candidate is included in the candidate list also grows. This process, however, increases ambiguity and then deteriorates the performance. In this paper, we propose a new rule-based model that produces one best analysis. The analysis rules are automatically extracted from large amount of Part-of-Speech tagged corpus, and the proposed model does not require any manual construction cost of analysis rules, and has shown high success rate of analysis. Futhermore, the proposed model can reduce the ambiguities and computational complexities in the candidate selection phase because the model produces one analysis when it can successfully analyze the given word. By combining the conventional probability-based model. the model can also improve the performance of analysis when it does not produce a successful analysis.

  • PDF

A Study on Water Budget Model of PDSI (팔머가뭄지수의 수분수지 모형에 대한 검토)

  • Moon, Jang-Won;Lee, Dong-Ryul;Kim, Tae-Woong;Kim, Joong-Hoon
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2011.05a
    • /
    • pp.437-437
    • /
    • 2011
  • Palmer(1965)는 정상적인 기후에서 현저하게 벗어난 비정상적인 습윤 부족기간을 이상 습윤부족이라 정의하였으며, 가뭄을 장기간의 이상 습윤부족으로 인해 나타나는 현상으로 정의하였다. 특정 지역에서 정상적인 기후조건을 유지하기 위해 필요한 강수량을 산정하고 이를 실제 발생한 강수량과 비교함으로써 수분의 과잉 또는 부족을 검토하였다. 수분의 과잉이나 부족 정도를 지수로 표현함으로써 현재의 수분상황을 나타낼 수 있는 방법을 제시하였으며, 이를 팔머가뭄지수(Palmer Drought Severity Index, PDSI)라 한다. PDSI를 산정하기 위해서는 현재 시점의 수분상황에 대한 고려가 필요하며, Palmer(1965)는 개념적인 물수지 모형이라 할 수 있는 수분수지 모형을 구성하고 이를 이용하여 현재의 수분상황을 판단하기 위한 정보를 생성한 후 그 결과를 바탕으로 PDSI를 산정하는 방법을 제안하였다. 그러나 PDSI는 수분수지 모형에 있어 토양층의 단순화 및 유출의 과소 평가 가능성 등 여러 가지 문제점이 제기된 바 있으며, 미국의 캔자스 및 아이오와 지역을 배경을 개발된 방법이므로 이를 우리나라의 수문학적 조건을 적절히 표현할 수 있는 지에 대한 확인이 필수적이라 할 수 있다. 본 연구에서는 평저수기 기저유출이 지배적으로 나타나는 우리나라의 수문학적 특성을 고려하여 기존 PDSI 방법이 이를 적절히 표현할 수 있는가를 검토하였다. 그 결과 기존 PDSI의 수분수지 모형은 우리나라의 유출 특성을 적절히 표현하기 어렵다는 점을 확인할 수 있었으며, 그 원인을 분석하여 제시하였다. 이와 함께 우리나라의 유출 특성을 보다 적절히 나타낼 수 있도록 하기 위해 수분수지 모형에 대한 수정 방안을 검토하여 제시하였다.

  • PDF