• 제목/요약/키워드: 문장 생성 모형

검색결과 19건 처리시간 0.023초

문장 클러스터링에 기반한 자동요약 모형 (A Text Summarization Model Based on Sentence Clustering)

  • 정영미;최상희
    • 정보관리학회지
    • /
    • 제18권3호
    • /
    • pp.159-178
    • /
    • 2001
  • 본 연구에서는 문장 클러스터로부터 대표문장을 선정하여 요약문을 생성하는 자동요약 모형을 제시하고. 학습문서 집단을 미용하여 최적의 요약 환경을 구축한 후 요약 실험을 수행하였다. 학습 과정에서 문장의 클러스터링 기법으로는 7개의 계층적 기법들을 비교한 결과 클러스터를 구성하는 문장 수의 편차가 가장 적고 단일 문장 클러스터를 가장 적게 생성하는 센트로이드 기법이 선택되었다. 또한 각 클러스터를 대표하는 문장의 선정을 위해 용어 및 문장 가중치를 합산한 문장값과 클러스터-문장 벡터간 유사도의 두 기준을 비교한 결과 문장값 기준이 선택되었다. 용어 가중치로는 역문장빈도와 표제어 가중치, 그리고 문장의 위치 가중치가 자동요약 성능을 개선시키는 것으로 나타났으며, 적절한 요약문의 길이는 전체 문서의 1/3인 것으로 나타났다. 실험문서 집단으로는 문서의 길이와 특성이 다른 신문기사와 잡지기사의 두 집단을 이용하였다. 요약 모형의 검증 실험 결과 요약 정확률은 신문기사 집단에서는 53%, 잡지기사 집단에서는 47%인 것으로 나타났다. 두 실험 모두 랜덤하게 생성한 베이스라인 요악문보다 성능이 우수하였으나, 리드문장들로 구성된 베이스라인 요약문과의 비교에서는 짧은 길이의 신문기사의 경우 요약 모형의 성능이 오히려 떨어지는 것으로 나타났다.

  • PDF

이미지 기반 확률모델을 이용한 문자검출 (Character spotting using image-based stochastic models)

  • 김선규;신봉기
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (B)
    • /
    • pp.484-486
    • /
    • 2001
  • 본 논문에서는 의사 2차원 은닉 마르코프 모델의 구조로 생성한 마르코프 체인형 확률모형에 의한 인쇄체문자 이미지의 모델링에 대해 논한다. 이미지 데이터에서 바로 모델을 실시간 생성하며 문자 인식 및 검출에 응용할 수 있다. 실험에 의하면, 이 방법을 통해 특정 낱말이 포함된 문장에서 숫자를 인식, 한글을 검출할 수 있음을 확인하였다.

  • PDF

텍스트 이해 모델에 기반한 정보 검색 시스템 (Text Undestanding System for Summarization)

  • 송인석;박혁로
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.1-6
    • /
    • 1997
  • 본 논문에서는 인지적 텍스트 이해 모형을 제시하고 이에 기반한 자동 요약 시스템을 구현하였다. 문서는 정보의 단순한 집합체가 아닌 정형화된 언어 표현 양식으로서 단어의 의미적 정보와 함께 표현 양식, 문장의 구조와 문서의 구성을 통해 정보를 전달한다. 요약 목적의 텍스트 이해 및 분석 과정을 위해 경제 분야 기사 1000건에 대한 수동 요약문을 분석, 이해 모델을 정립하였고. 경제 분야 기사 1000건에 대한 테스트 결과를 토대로 문장간의 관계, 문서의 구조에서 요약 정보 추출에 사용되는 정보를 분석하였다. 본 텍스트 이해 모형은 단어 빈도수에 의존하는 통계적 모델과 비교해 볼 때, 단어 간의 관련성을 찾아내고, 문서구조정보에 기반한 주제문 추출 및 문장간의 관계를 효과적으로 사용함으로서 정보를 생성한다. 그리고 텍스트 이해 과정에서 사용되는 요약 지식과 구조 분석정보의 상관관계를 체계적으로 연결함으로서 자동정보 추출에서 야기되는 내용적 만족도 문제를 보완한다.

  • PDF

술어기반 문형정보를 이용한 자동요약시스템에 관한 연구 (A Study on an Automatic Summarization System Using Verb-Based Sentence Patterns)

  • 최인숙;정영미
    • 정보관리학회지
    • /
    • 제18권4호
    • /
    • pp.37-55
    • /
    • 2001
  • 본 연구에서는 특정 주제분야의 텍스트를 대표할 수 있는 단어술어를 추출하고 기본문형을 형성 한 후 각 단서술어의 기본문형을 실례화하여 연결함으로써 요약문을 작성하는 자동요약시스템의 모형을 설계하고 구현하였다. 시스템은 학습과정과 요약과정을 구분되며, 학습과정에서는 술어와 격조사를 출현빈도를 이용하여 주제분야 텍스트집단을 대표하는 단어술어와 필수격 조사를 추출한 뒤 단어술어가 이루는 문장의 기본문형을 형성한다. 요약과정에서 실례화 규직을 요약 대상 문장의 구문 분석 결과에 적용하여 기본문형의 격조사와 결합될 논항을 찾아 단문을 생성하고 연결하여 요약문을 완성한다. ‘화재’및‘강도’와 관련된 신문기사를 대상으로 실험을 수행하였으며, 작성된 요약문은 단어술어가 포함된 주요 문장에서 추출한 필수 정보항목과 술어를 중심으로 생성된 문장들로서 문장간의 연결이 자연스러울 뿐 아니라 텍스트의 전체적인 의미를 표현할 수 있었다. 또한, 통계적 기법을 이용한 학습을 통해 주제영역의 확장이 가능하였다.

  • PDF

한국어 음소 단위 LSTM 언어모델을 이용한 문장 생성 (Korean Sentence Generation Using Phoneme-Level LSTM Language Model)

  • 안성만;정여진;이재준;양지헌
    • 지능정보연구
    • /
    • 제23권2호
    • /
    • pp.71-88
    • /
    • 2017
  • 언어모델은 순차적으로 입력된 자료를 바탕으로 다음에 나올 단어나 문자를 예측하는 모델로 언어처리나 음성인식 분야에 활용된다. 최근 딥러닝 알고리즘이 발전되면서 입력 개체 간의 의존성을 효과적으로 반영할 수 있는 순환신경망 모델과 이를 발전시킨 Long short-term memory(LSTM) 모델이 언어모델에 사용되고 있다. 이러한 모형에 자료를 입력하기 위해서는 문장을 단어 혹은 형태소로 분해하는 과정을 거친 후 단어 레벨 혹은 형태소 레벨의 모형을 사용하는 것이 일반적이다. 하지만 이러한 모형은 텍스트가 포함하는 단어나 형태소의 수가 일반적으로 매우 많기 때문에 사전 크기가 커지게 되고 이에 따라 모형의 복잡도가 증가하는 문제가 있고 사전에 포함된 어휘 외에는 생성이 불가능하다는 등의 단점이 있다. 특히 한국어와 같이 형태소 활용이 다양한 언어의 경우 형태소 분석기를 통한 분해과정에서 오류가 더해질 수 있다. 이를 보완하기 위해 본 논문에서는 문장을 자음과 모음으로 이루어진 음소 단위로 분해한 뒤 입력 데이터로 사용하는 음소 레벨의 LSTM 언어모델을 제안한다. 본 논문에서는 LSTM layer를 3개 또는 4개 포함하는 모형을 사용한다. 모형의 최적화를 위해 Stochastic Gradient 알고리즘과 이를 개선시킨 다양한 알고리즘을 사용하고 그 성능을 비교한다. 구약성경 텍스트를 사용하여 실험을 진행하였고 모든 실험은 Theano를 기반으로 하는 Keras 패키지를 사용하여 수행되었다. 모형의 정량적 비교를 위해 validation loss와 test set에 대한 perplexity를 계산하였다. 그 결과 Stochastic Gradient 알고리즘이 상대적으로 큰 validation loss와 perplexity를 나타냈고 나머지 최적화 알고리즘들은 유사한 값들을 보이며 비슷한 수준의 모형 복잡도를 나타냈다. Layer 4개인 모형이 3개인 모형에 비해 학습시간이 평균적으로 69% 정도 길게 소요되었으나 정량지표는 크게 개선되지 않거나 특정 조건에서는 오히려 악화되는 것으로 나타났다. 하지만 layer 4개를 사용한 모형이 3개를 사용한 모형에 비해 완성도가 높은 문장을 생성했다. 본 논문에서 고려한 어떤 시뮬레이션 조건에서도 한글에서 사용되지 않는 문자조합이 생성되지 않았고 명사와 조사의 조합이나 동사의 활용, 주어 동사의 결합 면에서 상당히 완성도 높은 문장이 발생되었다. 본 연구결과는 현재 대두되고 있는 인공지능 시스템의 기초가 되는 언어처리나 음성인식 분야에서 한국어 처리를 위해 다양하게 활용될 수 있을 것으로 기대된다.

한국어 텍스트 문장정렬을 위한 개체격자 접근법과 LSA 기반 접근법의 활용연구 (A comparative study of Entity-Grid and LSA models on Korean sentence ordering)

  • 김영삼;김홍기;신효필
    • 인지과학
    • /
    • 제24권4호
    • /
    • pp.301-321
    • /
    • 2013
  • 본 논문은 텍스트의 응집도 측정과 텍스트 자동생성 시스템을 위한 기초기술 중 하나인 문장정렬 과제에 대한 연구로, 개체기반적(entity-based) 접근의 한 유형인 개체격자 모형(Entity-Grid model)과 벡터공간 모형에 기반한 LSA(Latent Semantic Analysis)를 모두 시도하고 결과를 서로 비교하였다. 개체격자 모형에 대한 기존 연구들에서 논의된 명사들의 통사역(syntactic role) 정보가 한국어 텍스트 정렬과제에 미치는 영향을 실험하고자 하였으며, 기존 독일어권 응용연구 결과와는 달리 긍정적인 결과를 얻었다. 이 과정에서 한국어의 격조사를 활용하는 전략을 취했으며, 이는 한국어의 격표지 정보가 한국어 텍스트의 응집성을 측정하는 데에 유용할 수 있다는 점을 보인 것이다. 그리고 개체격자 모형을 통한 결과를 LSA 기반 모형결과와 비교하여 양 모형의 장단점과 향후 개선점을 아울러 논의하였다.

  • PDF

괴델의 불완전성 정리:증명된 신화(神話)?

  • 홍성기
    • 논리연구
    • /
    • 제5권2호
    • /
    • pp.39-66
    • /
    • 2002
  • 일반적으로 엄밀한 방법을 통하여 증명되었다고 말해지는 괴델의 불완전성 정리는 일련의 전제와 배경지식이 요구된다고 하겠다. 이들 중에서 무엇보다도 중요한 것은 정리의 증명에 사용되는 메타언어상의 수학적 참에 대한 개념이다. 일단 확인할 수 있는 것은 "증명도, 반증도 되지 않지만 참인 산수문장의 존재"라는 불완전성 정리의 내용에서 괴델이 가정하고 있는 수학적 참의 개념이 구문론적인 증명개념으로부터 완전히 독립되어야 한다는 점이다. 문제는 그가 가정하고 있는 수학적 참의 개념이 도대체 무엇이어야만 하겠는가라는 점이다. 이 논문은 이 질문과 관련하여 내용적으로 3부분으로 나누어 질 수 있다. I. 괴델의 정리의 증명에 필요한 전제들 및 표의 도움을 얻어 자세히 제시되는 증명과정의 개략도를 통해 문제의 지형도를 조감하였다. II, III. 비트겐슈타인의 괴델비판을 중심으로, "일련의 글자꼴이 산수문장이다"라는 주장의 의미에 대한 상식적 비판 및 해석에 바탕을 둔 모형이론에 대한 대안제시를 통하여 괴델의 정리를 증명하기 위해 필요한 산수적 참에 관한 전제가 결코 "확보된 것이 아니다"라는 점을 밝혔다. IV. 괴델의 정리에 대한 앞의 비판이 초수학적 전제에 대한 것이라면, 3번째 부분에서는 공리체계에서 생성 가능한 표현의 증명여부와 관련된 쌍조건문이 그 도입에 필수적인 괴델화가 갖는 임의성으로 인해 양쪽의 문장의 참, 거짓 여부가 서로 독립적으로 판단 가능하여야만 한다는 점에(외재적 관계!) 착안하여 궁극적으로 자기 자신의 증명여부를 판단하게 되는 한계상황에 도달할 경우(대각화와 관련된 표 참조) 그 독립성이 상실됨으로 인해 사실상 기능이 정지되어야만 한다는 점, 그럼에도 불구하고 이 한계상황을 간파할 경우(내재적 관계로 바뀜!)항상 순환논법을 피할 수 없다는 점을 밝혔다. 비유적으로 거울이 모든 것을 비출 수 있어도 자기 스스로를 비출 수 없다는 점과 같으며, 공리체계 내 표현의 증명여부를 그 체계내의 표현으로 판별하는 괴델의 거울 역시 스스로를 비출 수는 없다는 점을 밝혔다. 따라서 괴델문장이 산수문장에 속한다는 믿음은, 그 문장의 증명, 반증 여부도 아니고 또 그 문장의 사용에서 오는 것도 아니고, 플라톤적 수의 세계에 대한 그 어떤 직관에서 나오는 것도 아니다. 사실상 구문론적 측면을 제외하고는 그 어떤 것으로부터도 괴델문장이 산수문장이라는 근거는 없다. 그럼에도 불구하고 괴델문장을 산수문장으로 볼 경우(괴델의 정리의 증명과정이라는 마술을 통해!), 그것은 확보된 구성요소로부터 조합된 문장이 아니라 전체가 서로 분리불가능한 하나의 그림이라고 보아야한다. 이것은 비트겐슈타인이 공리를 그림이라고 본 것과 완전히 일치하는 맥락이다. 바론 그런 점에서 괴델문장은 새로운 공리로 도입된 것과 사실은 다름이 없다.

  • PDF

명사-동사 공기패턴을 이용한 문서 자동 요약 (Automatic Text Summarization using Noun-Verb Cooccurrence Pattern)

  • 남기종;이창범;강대욱;박혁로
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (상)
    • /
    • pp.611-614
    • /
    • 2002
  • 문서 자동 요약은 입력된 문서에 대해 컴퓨터가 자동으로 요약을 생성하는 과정을 의미한다. 즉, 컴퓨터가 문서의 기본적인 내용을 유지하면서 문서의 복잡도 즉 문서의 길이를 줄이는 작업이다. 효율적인 정보 접근을 제공함과 동시에 정보 과적재를 해결하기 위한 하나의 방법으로 문서 자동요약에 관한 연구가 활발히 진행되고 있다. 본 논문의 목적은 어휘 연관성 정보를 이용하여 한국어 문서를 자동으로 요약하는 효율적이며 효과적인 모형을 개발하는 것이다. 제안한 방법에서는 신문기사와 같은 특정 부류에 국한되는 단어간의 어휘연관성을 이용하여 명사-명사 공기패턴과 명사-동사 공기패턴을 구축하여 문서요약에 이용한다. 크게 불용어 처리 단계, 공기패턴 구축 단계, 문장 중요도 계산 단계, 요약 생성단계의 네 단계로 나누어 요약을 생성한다. 30% 중요문장 추출된 신문기사를 대상으로 평가한 결과 명사-명사 공기패턴과 빈도만을 이용한 방법보다 명사-동사 공기패턴을 이용한 방법이 좋은 결과를 가져 왔다.

  • PDF

형태소 분석 및 품사 부착을 위한 말뭉치 기반 혼합 모형 (A Corpus-based Hybrid Model for Morphological Analysis and Part-of-Speech Tagging)

  • 이승욱;이도길;임해창
    • 한국컴퓨터정보학회논문지
    • /
    • 제13권7호
    • /
    • pp.11-18
    • /
    • 2008
  • 한국어 형태소 분석은 일반적으로 입력된 문장의 분석 후보를 다수 생성한 후, 그 중 최적의 후보를 선택하는 과정을 거친다. 분석 후보를 많이 생성할수록 올바른 분석이 포함될 가능성이 높아지지만 동시에 모호성이 증가한다는 문제가 생긴다. 이를 해결하기 위해 본 논문은 단일 후보를 생성하는 규칙 기반 분석 모형을 제안한다. 분석 규칙은 품사 부착 말뭉치를 통해 자동으로 추출되기 때문에 규칙 구축비용을 필요로 하지 않을 뿐만 아니라 높은 분석성공률을 보인다. 분석이 성공한 경우에는 단 하나의 분석 후보만을 생성하기 때문에 최적 후보 선택 단계에서의 모호성이 효과적으로 감소되고, 계산 복잡도 역시 줄어든다. 규칙 모형으로 분석이 실패한 경우를 대비해 기존 확률 기반 모형을 결합함으로써 형태소 분석 성능을 향상시킬 수 있다.

  • PDF

팔머가뭄지수의 수분수지 모형에 대한 검토 (A Study on Water Budget Model of PDSI)

  • 문장원;이동률;김태웅;김중훈
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2011년도 학술발표회
    • /
    • pp.437-437
    • /
    • 2011
  • Palmer(1965)는 정상적인 기후에서 현저하게 벗어난 비정상적인 습윤 부족기간을 이상 습윤부족이라 정의하였으며, 가뭄을 장기간의 이상 습윤부족으로 인해 나타나는 현상으로 정의하였다. 특정 지역에서 정상적인 기후조건을 유지하기 위해 필요한 강수량을 산정하고 이를 실제 발생한 강수량과 비교함으로써 수분의 과잉 또는 부족을 검토하였다. 수분의 과잉이나 부족 정도를 지수로 표현함으로써 현재의 수분상황을 나타낼 수 있는 방법을 제시하였으며, 이를 팔머가뭄지수(Palmer Drought Severity Index, PDSI)라 한다. PDSI를 산정하기 위해서는 현재 시점의 수분상황에 대한 고려가 필요하며, Palmer(1965)는 개념적인 물수지 모형이라 할 수 있는 수분수지 모형을 구성하고 이를 이용하여 현재의 수분상황을 판단하기 위한 정보를 생성한 후 그 결과를 바탕으로 PDSI를 산정하는 방법을 제안하였다. 그러나 PDSI는 수분수지 모형에 있어 토양층의 단순화 및 유출의 과소 평가 가능성 등 여러 가지 문제점이 제기된 바 있으며, 미국의 캔자스 및 아이오와 지역을 배경을 개발된 방법이므로 이를 우리나라의 수문학적 조건을 적절히 표현할 수 있는 지에 대한 확인이 필수적이라 할 수 있다. 본 연구에서는 평저수기 기저유출이 지배적으로 나타나는 우리나라의 수문학적 특성을 고려하여 기존 PDSI 방법이 이를 적절히 표현할 수 있는가를 검토하였다. 그 결과 기존 PDSI의 수분수지 모형은 우리나라의 유출 특성을 적절히 표현하기 어렵다는 점을 확인할 수 있었으며, 그 원인을 분석하여 제시하였다. 이와 함께 우리나라의 유출 특성을 보다 적절히 나타낼 수 있도록 하기 위해 수분수지 모형에 대한 수정 방안을 검토하여 제시하였다.

  • PDF