• 제목/요약/키워드: 텍스트 구조

검색결과 753건 처리시간 0.033초

수사구조를 이용한 텍스트 자동요약 (Text Summarisation with Rhetorical Structure)

  • 이유리;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.97-102
    • /
    • 1999
  • 텍스트 요약이란 중요정보만을 추출하여 본래 텍스트의 의미를 전달하는 축약 과정이다. 인터넷을 통한 온라인 정보가 급증함에 따라 정보에 대한 처리와 신속한 내용 파악을 위한 효율적인 자동 텍스트 방법이 필요하다. 기존의 통계적 방법으로는 전체 텍스트의 구조적인 특징을 고려할 수가 없기 때문에, 생성된 요약문의 의미적 흐름이 부자연스럽고, 문장간 응집도가 떨어지게 된다. 수사학적 방법은 요약문을 생성하기 위해서 문장간의 접속관계를 이용한다. 수사 구조란 텍스트를 이루는 문장들간의 논리적인 결합관계로, 수사학적 방법은 이러한 결합관계를 파악하여 요약문을 생성하는 방법이다. 본 논문에서는 표지들이 나타내는 접속 관계정보를 사용하여, 텍스트의 수사구조를 분석한 후 요약문을 생성하는 시스템을 구현한다. 수사구조 파싱 과정은 문장간의 수사구조 파싱과 문단간의 수사구조 파싱, 두 단계로 이루어진다. 파싱은 차트파싱 방법을 사용하여 상향식으로 진행된다. 입력된 문장들로부터 두 단계 파싱에 의해 전체 텍스트의 수사구조 트리를 생성하며, 생성된 트리에서 가중치를 계산하여 중요 문장들을 요약문으로 추출한다.

  • PDF

자연스러운 텍스트 생성을 위한 추계적 텍스트 구조화 (A Stochastic Text Structuring using Simulated Annealing)

  • 노지은;이종혁
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2002년도 제14회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.199-206
    • /
    • 2002
  • 언어가 아닌 다양한 지식원으로부터 그것을 설명하는 텍스트를 생성하는 텍스트 생성 (text generation)은 여러 가지 복합적이고 단계적인 과정을 거쳐 이루어진다. 자연스러운 텍스트를 생성하기 위한 여러 단계 중, 지식원으로부터 텍스트에 포함되기 위해 뽑힌 정보들간의 순서를 적절히 결정하는 과정을 텍스트 구조화(text structuring)라고 한다. 텍스트 구조화는 생성될 텍스트의 결속성(coherence)을 크게 좌우하므로, 양질의 텍스트를 생성하기 위해서는 텍스트 구조화를 다루기 위한 정교한 방법론이 요구된다. 본 논문에서는 SA(simulated annealing) 알고리즘을 이용해 추계적 텍스트 구조화 방안을 제안하며 특히, SA의 평가 함수(evaluation function)로서, 총 4가지의 방법론-중심화 이론(centering theory)을 이용한 센터 전이 유형의 선호도, 추론 비용에 근거한 전이 유형간의 선호도, 서두 문장을 결정하기 위한 가중치 할당에 따른 선호도, 인접한 문장간의 유사도에 따른 선호도-을 제안하고 실험을 통해, 그 효용성을 보였다.

  • PDF

텍스트의 상부구조를 이용한 전문탐색 기법의 타당성 고찰 (A Study on Feasibility of Full-text Search Using Super-structure of Text)

  • 이병기
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 1996년도 제3회 학술대회 논문집
    • /
    • pp.19-22
    • /
    • 1996
  • 본 연구는 전문 D/B의 본문 필드를 텍스트 언어학적 상부구조로 분할하고 태그를 부여함으로써 이용자의 목적이나 상황에 따라서 필요한 부분만을 검색할 수 있는 전문탐색기법의 타당성을 고찰하였다. 한 문헌은 다수의 텍스트 단위로 구성되며, 이 텍스트는 의사소통이나 인지과정의 기본 단위로써 문헌 전체를 통괄하는 상부구조에 의해 연결된다. 상부구조는 텍스트의 생성과 이해에 중요한 매개체 역할을 하며, 정보요구의 상황이나 목적과 밀접하게 관련되어 있음을 밝히고 정보검색시스템의 주요 대상인 학술문헌의 상부구조를 고찰하였다.

  • PDF

규칙기반 텍스트 영역 선택 기법을 이용한 펜기반 교정 시스템의 구현 (Implementation of Pen-based Editing System using Rule-based Text Selection Technique)

  • 정한상;김재경;손원성;임순범;최윤철
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2002년도 추계학술발표논문집
    • /
    • pp.203-206
    • /
    • 2002
  • 최근 웹을 기반으로 한 문서의 전자화가 이루어지면서 기존의 전통적인 펜기반 교정 시스템 또한 온라인 상의 전자 문서 환경에 맞게 변화하고 있다. 이러한 펜기반 입력 기법을 사용하는 교정 시스템에서는 일반 문서와 달리 웹 문서의 구조정보를 고려한 편집이 지원되어야 하며 또한 교정 부호와 텍스트 간의 정확한 영역 인식이 이루어져야 한다. 본 연구에서는 온라인 교정 시스템 모델링을 통하여 온라인 환경에 적합한 교정 부호를 정의하고, 교정 대상 텍스트 영역을 편집 가능한 단위로 구분하여 효율적인 편집 연산이 이루어 질 수 있도록 하였다. 또한 웹 기반의 구조문서(HTML/XML) 편집 환경을 고려하여 편집으로 인한 문서의 구조 정보 변경을 지원하기 위하여 텍스트를 비구조 및 구조정보 텍스트로 분류하여 정의하였다. 본 연구에서는 이러한 모델에 기반하여 교정 부호의 특성에 따른 가변적인 편집 텍스트 영역 인식 규칙 모델을 정의하여 교정 부호와 편집 텍스트 영역간의 모호성을 최소화 하고, 편집으로 인한 문서의 구조 정보 변경을 지원하는 시스템을 구현하였다. 결과적으로 온라인 웹 문서 환경에서 펜기반의 모호한 교정 부호의 입력을 인지적인 관점에서 해석하여 보다 정확한 교정 작업 수행을 지원하도록 하였다.

  • PDF

지능형 펜기반 온라인 교정 시스템의 설계 및 구현 (Modeling and Implementation of Intelligent Pen-based Online Editing System)

  • 김재경;손원성;정한상;임순범;최윤철
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (2)
    • /
    • pp.178-180
    • /
    • 2002
  • 최근 종이 문서의 전자화가 이루어지면서 기존의 전통적인 펜기반 교정 시스템 또한 온라인 상의 전자 문서 환경에 맞게 구축되고 있다. 이러한 펜기반 입력 기법을 사용하는 교정 시스템에서는 교정 부호와 텍스트 간의 정확한 영역 인식이 중요하며 이를 위해 교정 부호의 특성과 텍스트 영역의 분석이 필요하다. 본 연구에서는 온라인 교정 시스템 모델링을 통하여 온라인 환경에 적합한 교정 부호를 정의하고, 교정 대상 텍스트 영역을 편집 가능한 단위로 구분하여 효율적인 편집 연산이 이루어 질 수 있도록 하였다. 또한 웹 기반의 구조문서(HTML/XML) 편집 환경을 고려하여 편집으로 인한 문서의 구조 정보 변경을 지원하기 위하여 텍스트를 비구조 및 구조정보 텍스트로 분류하여 정의하였다. 본 연구에서는 이러한 모델에 기반하여 교정 부호의 특성에 따른 가변적인 편집 텍스트 영역 인식 규칙 모델을 정의하여 교정부호와 편집 텍스트 영역간의 모호성을 최소화 하고, 편집으로 인한 문서의 구조 정보 변경을 지원하는 시스템을 구현하였다. 결과적으로 온라인 웹 문서 환경에서 펜기반의 모호한 교정 부호의 입력을 인지적인 관점에서 해석하여 보다 정확한 교정 작업 수행을 지원하도록 하였다.

  • PDF

한국어 텍스트의 논증 구조 내 담화 관계의 자동 분류 연구 (An Automatic Classification of Discourse Relations in the Arguing Structure of Korean Texts)

  • 이상아;신효필
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.59-64
    • /
    • 2015
  • 최근 온라인 텍스트 자료를 이용하여 대중의 의견을 분석하는 작업이 활발히 이루어지고 있다. 이러한 작업에는 주관적 방향성을 갖는 텍스트의 논증 구조와 중요 내용을 파악하는 과정이 필요하며, 자료의 양과 다양성이 급격히 증가하면서 그 과정의 자동화가 불가피해지고 있다. 본 연구에서는 정책에 대한 찬반 의견으로 구성된 한국어 텍스트 자료를 직접 구축하고, 글을 구성하는 기본 단위들 사이의 담화 관계를 정의하였다. 각 단위들 사이의 관계는 기계학습과 규칙 기반 방식을 이용하여 예측되고, 그 결과는 합성되어 하나의 글에 대응되는 트리 구조를 이룬다. 또한 텍스트의 구조상에서 주제문을 직접적으로 뒷받침하는 문장 혹은 절을 추출하여 글의 중요 내용을 얻고자 하였다.

  • PDF

구조생성기호학적 관점에서의 디지털게임의 의미생성방식 연구 - 스타크래프트, 리니지, 스페셜포스에 대한 분석을 중심으로 -

  • 박태순
    • 한국게임학회지
    • /
    • 제6권1호
    • /
    • pp.41-43
    • /
    • 2009
  • 게임에서의 텍스트를 추출하고 이를 분석하고자 하였다. 기본적으로 그레마스의 구조생성기호학을 활용하여 텍스트를 분석하고자 하였는데, 연구방법론에서는 현상학, 해석에서는 정신분석학의 이론에서도 도움을 받았다. 구체적인 분석대상으로는 온라인게임인 스타크래프트, 리니지, 스페셜포스를 선택하였다. 연구문제는 이들 세 게임의 의미생성방식에 대한 탐구로 구성되었다. 각 게임의 의미생성방식은 구조생성기호학의 세 가지 층위에서 구분되어 연구되었다. 즉, 심층구조, 기호-설화구조, 담화구조의 세층위로 전환, 발화되면서 점진적으로 의미가 풍성해지는 과정이 탐구되었다. 각 게임의 차이, 나아가 게임 장르간의 차이는 주로 심층 수준의 차이에서 기인한다고 보인다. 이들 게임의 주요 공통점이자, 다른 매체와의 차이점은 행동자 모델에서 두드러지는데, 바로 이용자가 스스로 주체의 위치를 점하게 되는 것이다. 상호작용성으로 대변되는 게임의 특성은 이용자의 텍스트로의 적극적인 개입을 할 수 있게끔 한다. 이러한 적극적인 개입은 이용자가 스스로 텍스트의 주체가 되도록 허용하는데, 주체가 된다고 함은 곧 스스로의 욕망을 직접 대상에 투사하면서 텍스트를 창출함을 의미한다. 바로 이러한 점이 게임의 의미생성방식의 큰 특징이며 다른 매체들과의 주요한 차이점이기도 하다. 더불어 게임이 우리 문화와 사회에 커다란 영향을 미칠 수 있는 기제임이 입증되는 것이기도 하다.

  • PDF

자연영상에서 적응적 문자-에지 맵 특징을 이용한 텍스트 영역 검출 (Text Region Detection using Feature of Adaptive Character-Edge Map in Natural Images)

  • 박종천;황동국;이우람;전병민
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2007년도 춘계학술발표논문집
    • /
    • pp.181-184
    • /
    • 2007
  • 자연영상에 포함된 텍스트는 많은 중요한 정보를 포함하고 있으므로 자연영상에서 텍스트 정보를 검출하는 연구가 활발히 진행되고 있다. 본 논문에서는 문자 영역의 구조적인 특정을 배열문법으로 정의한 적응적 문자-에지 맵을 제안하여 텍스트 영역을 검출한다. 캐니-에지 검출기로 에지를 추출하고, 생성된 에지 이미지를 레이블링하고 그 영역의 문자구조 특징을 분석하기 위해서 적응적 문자-에지 맵을 분석한다. 적응적 문자-에지 랩의 분포 상태를 분석함으로서 텍스트 후보 영역을 검출하고, 텍스트 영역의 에지 히스토그램 프로파일을 분석함으로서 텍스트 후보 영역에 대한 검증을 수행하여 최종적인 텍스트 영역을 검출한다. 제안한 방법은 다양한 종류의 자연영상을 대상으로 실험하였고, 기울어진 텍스트와 다양한 크기의 텍스트 구성된 자연영상에서 텍스트 영역을 효과적으로 검출하였다.

  • PDF

구조문서 기반 온라인 교정 시스템의 설계 및 구현 (Implementation of Online Editing System based on Structural Documents)

  • 정한상;김재경;손원성;임순범;최윤철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (하)
    • /
    • pp.2289-2292
    • /
    • 2002
  • 최근 웹을 기반으로 한 문서의 전자화가 이루어지면서 기존의 전통적인 펜기반 교정 시스템 또한 온라인상의 전자 문서 환경에 맞게 변화하고 있다. 이러한 펜기반 입력 기법을 사용하는 교정 시스템에서는 일반문서와 달리 웹 문서의 구조정보를 고려한 편집이 지원되어야 하며 또한 교정부호와 텍스트간의 정확한 영역 인식이 이루어져야 한다. 본 연구에서는 온라인 교정 시스템 모델링을 통하여 온라인 환경에 적합한 교정 부호를 정의하고, 교정 대상 텍스트 영역을 편집 가능한 단위로 구분하여 효율적인 편집 연산이 이루어 질 수 있도록 하였다. 또한 웹 기반의 구조문서(HTML/XML) 편집 환경을 고려하여 편집으로 인한 문서의 구조 정보 변경을 지원하기 위하여 텍스트를 비구조 및 구조정보 텍스트로 분류하여 정의하였다. 본 연구에서는 이러한 모델에 기반하여 교정 부호의 특성에 따른 가변적인 편집 텍스트 영역 인식 규칙 모델을 정의하여 교정 부호와 편집 텍스트 영역간의 모호성을 최소화하고, 편집으로 인한 문서의 구조 정보 변경을 지원하는 시스템을 구현하였다. 결과적으로 온라인 웹 문서 환경에서 펜기반의 모호한 교정 부호의 입력을 인지적인 관점에서 해석하여 보다 정확한 교정 작업 수행을 지원하도록 하였다.

  • PDF

텍스트 이해 모델에 기반한 정보 검색 시스템 (Text Undestanding System for Summarization)

  • 송인석;박혁로
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.1-6
    • /
    • 1997
  • 본 논문에서는 인지적 텍스트 이해 모형을 제시하고 이에 기반한 자동 요약 시스템을 구현하였다. 문서는 정보의 단순한 집합체가 아닌 정형화된 언어 표현 양식으로서 단어의 의미적 정보와 함께 표현 양식, 문장의 구조와 문서의 구성을 통해 정보를 전달한다. 요약 목적의 텍스트 이해 및 분석 과정을 위해 경제 분야 기사 1000건에 대한 수동 요약문을 분석, 이해 모델을 정립하였고. 경제 분야 기사 1000건에 대한 테스트 결과를 토대로 문장간의 관계, 문서의 구조에서 요약 정보 추출에 사용되는 정보를 분석하였다. 본 텍스트 이해 모형은 단어 빈도수에 의존하는 통계적 모델과 비교해 볼 때, 단어 간의 관련성을 찾아내고, 문서구조정보에 기반한 주제문 추출 및 문장간의 관계를 효과적으로 사용함으로서 정보를 생성한다. 그리고 텍스트 이해 과정에서 사용되는 요약 지식과 구조 분석정보의 상관관계를 체계적으로 연결함으로서 자동정보 추출에서 야기되는 내용적 만족도 문제를 보완한다.

  • PDF