• 제목/요약/키워드: 문장추상화

검색결과 14건 처리시간 0.024초

문장추상화 : 개념추상화를 도입한 문장교열 (Sentence ion : Sentence Revision with Concept ion)

  • 김곤;양재곤;배재학;이종혁
    • 정보처리학회논문지B
    • /
    • 제11B권5호
    • /
    • pp.563-572
    • /
    • 2004
  • 문장추상화(Sentence Abstraction)는 문장의 의사전달 기능이 보존된 단순화이다. 이는 문장교열(Sentence Revision)과 개념추상화(Concept Abstraction)를 동시에 가능하게 한다. 문장교열은 사람이 생각한 바와 문장으로 표현된 의미의 차이를 해결하는 방법이다. 개념추상화는 개념들의 공통된 요소로부터 얻은 보편적인 관념을 표현하는 것이다. 문장추상화는 문장의 주요구성성분들을 선별해 내고, 이들의 의미적인 정보를 파악하여 상위개념을 표현함으로써 문장교열과 개념추상화를 가능하게 한다. 본 논문에서는 문장추상화를 위한 구문분석기 LGPI+와, 온톨러지 OfN을 구체화하였다. 문장추상기 SABOT는 LGPI+와 OfN을 활용하며, 구문분석 결과를 처리하여 문장에서 추상화 할 후보난어를 선택한다. 문장추상화를 활용한 원문이해 시스템으로 23개 이야기의 58개 문단에 대해 중요 문장에 대한 문장재현율과 선별된 문장들의 주제관련성을 확인해 보았다. 실험결과, 문장재현율은 54~72%의 범위이었고, 주제관련성은 76~86% 정도의 비율로 나타났다. 이를 유사 시스템과 비교해 보았을 때, 약 10~20% 정도의 성능향상을 보인다. 본 논문에서는 문장추상화를 활용하여 글의 화제문을 효율적으로 선택할 수 있는 문장교열과 원문의 이해심도를 보다 더 깊게 할 수 있는 개념추상화가 가능함을 확인하였다.

문서요약을 위한 문장추상화 (Sentence Abstraction for Text Summarization)

  • 김곤;배재학
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 춘계학술발표논문집 (상)
    • /
    • pp.531-534
    • /
    • 2002
  • 본 논문에서는 문서요약의 한 방법으로 문장추상화를 생각하였다. 이에 문장추상화의 판단기준이 되의 한 방법으로 문장추상화를 생각하였다 이에 문장추상화의 판단기준이 되는 요소들을 구문분석기를 통해 얻은 정보와, 문장의 구성성분들이 가지는 온톨로지 정보를 바탕으로 선정하였다. 문장추상화에는 Roget 시소러스에 기반한 온톨로지 OfN, 구문분석기 LGPI+, 그리고 이를 활용하는 문장추상기 SABOT를 이용하였다. 본 논문을 통하여 문장추상화가 문서 과정에 동원할 수 있는 유용한 도구임을 보였다.

  • PDF

개연성 규칙과 문장추상화를 활용한 문서요약 (Text Summarization with Abductive Rules and Sentence Abstraction)

  • 김곤;배재학
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (상)
    • /
    • pp.359-362
    • /
    • 2002
  • 본 논문에서는 문장추상화와 문장간 개연적 연결상황을 활용한 문단 기준의 문서요약을 생각하였다. 구상한 문단기준 문서요약 방법론은 다음과 같은 절차로 구성되어 있다: (1) 문단의 문장들을 추상화시킨다, (2) 문장구성성분들의 문장간 개연적 연결상황을 확인한다, (3) 연결집중도가 상대적으로 높은 문장을 문단의 화제를 담고 있는 것으로 인정한다. 본 논문에서는 이 과정에서 문장추상화에 필요한 구문분석기와 온톨로지를 구체화하였고, 문장추상기로 설화문장 추상화를 하였다. 그 후 개연성 규칙을 적용하여 문단의 주제문을 선별하였다.

  • PDF

문장추상화를 위한 Roget 시소러스 범주 재편성 (Category Reorganization of Roget Thesaurus for Sentence Abstraction)

  • 양재군;배재학
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2002년도 춘계학술대회
    • /
    • pp.40-45
    • /
    • 2002
  • 본 논문에서는 Roget 시소러스의 범주를 재편성하여 문장추상화에 사용할 온톨로지를 구축하였다. Roget 시소러스의 표제정보의 범주 값과 참조정보의 범주 값을 산출한 후 가중 산술 평균을 구했다. 이 수치를 토대로 OfN(Ontology for Narratives)을 구성하였다. 최종적으로 Roget 시소러스와의 비교를 통하여 OfN을 확정하였다. 이렇게 하여 얻어진 OfN을 설화 문장추상화에 적용하여 이 온톨로지가 유의함을 확인하였다.

  • PDF

문장추상화: 문서요약을 위한 문장교열 방법론 (Sentence Abstraction: A Sentence Revision Methodology for Text Summarization)

  • 김곤;배재학
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2002년도 춘계학술대회
    • /
    • pp.51-56
    • /
    • 2002
  • 본 논문에서는 문서요약을 위한 문장교열 방법론으로 문장추상화를 생각하였다. 이에 문장추상화의 판단기준이 되는 요소들을 구문분석기를 통해 얻은 정보와, 문장의 구성성분들이 가지는 온톨로지 정보를 바탕으로 선정하였다. 문장추상화에는 Roget 시소러스에 기반한 온톨로지 OfN, 구문분석기 LGPI+ 그리고 이를 활용하는 문장추상기 SABOT를 이용하였다. 본 논문을 통하여 문장추상화가 문서요약을 위한 문장교열 방법의 하나로 가능함을 보였다.

  • PDF

온톨로지 정보를 이용한 범주 재편성: Roget 시소러스의 경우 (Category Reorganization with Ontology Information: Roget Thesaurus Case)

  • 양재군;배재학
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 춘계학술발표논문집 (상)
    • /
    • pp.515-518
    • /
    • 2002
  • 본 논문에서는 Roget 시소러스의 범주를 재편성하여 문장추상화에 사용할 온톨로지를 추측하였다. Roget 시소러스의 표제정보와 참조정보를 이용해서 범주를 재편성한 각 결과를 토대로, OfN(Ontology for Narratives)을 구성하였다. 이렇게 하여 얻어진 OfN을 설화 문장추상화에 적용하여 이 온톨로지가 유의함을 확인하였다.

  • PDF

계층형 문장 구조 인코더를 이용한 한국어 의미역 결정 (Hierarchical Learning for Semantic Role Labeling with Syntax Information)

  • 김봉수;김정욱;황태선;이새벽
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.199-202
    • /
    • 2021
  • 의미역 결정은 입력된 문장 내 어절간의 의미 관계를 예측하기 위한 자연어처리 태스크이며, 핵심 서술어에 따라 상이한 의미역 집합들이 존재한다. 기존의 연구는 문장 내의 서술어의 개수만큼 입력 문장을 확장해 순차 태깅 문제로 접근한다. 본 연구에서는 확장된 입력 문장에 대해 구문 분석을 수행 후 추출된 문장 구조 정보를 의미역 결정 모델의 자질로 사용한다. 이를 위해 기존에 학습된 구문 분석 모델의 파라미터를 전이하여 논항의 위치를 예측한 후 파이프라인을 통해 의미역 결정 모델을 학습시킨다. ALBERT 사전학습 모델을 통해 입력 토큰의 표현을 얻은 후, 논항의 위치에 대응되는 표현을 따로 추상화하기 위한 계층형 트랜스포머 인코더 레이어 구조를 추가했다. 실험결과 Korean Propbank 데이터에 대해 F1 85.59의 성능을 보였다.

  • PDF

UML 모델을 위한 메트릭 기술 언어 : MDL4UML (Metrics Description Language for UML Model : MDL4UML)

  • 김태연;박진욱;채흥석
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제14권5호
    • /
    • pp.492-496
    • /
    • 2008
  • 객체지향 모델의 제약을 표현하는 OCL의 용도를 확장하여 UML 모델에 적용할 메트릭을 기술하는 언어로 사용하는 연구가 다양하게 진행되었다. 그러나 OCL로 메트릭을 기술하면 복잡한 OCL 문장으로 인하여 메트릭의 의미를 이해하는 데에 많은 어려움이 있다. 본 논문에서는 OCL의 기본 요소를 추상화시킨 새로운 메트릭 기술 언어(MDL4UML)를 정의하였다. MDL4UML은 OCL의 기본요소를 추상화함으로써 OCL을 이용하여 메트릭을 기술하는 메트릭 디자이너가 이해하기 쉽고 간략하게 메트릭을 기술할 수 있는 장점이 있다.

초등 글쓰기 교육을 위한 유사 문장 자동 선별 (Automatic Selection of Similar Sentences for Teaching Writing in Elementary School)

  • 박영기
    • 정보교육학회논문지
    • /
    • 제20권4호
    • /
    • pp.333-340
    • /
    • 2016
  • 자신이 쓴 문장과 유사한 문장을 살펴보는 것은 초등 글쓰기 교육을 위한 효과적인 방법 중 하나이지만, 매번 글을 쓸 때마다 교사의 지도가 필요하기 때문에 현실적으로 활용하기 쉽지 않다. 본 논문에서는 이 한계를 극복하기 위해 컴퓨터가 자동으로 자신이 쓴 문장과 유사한 문장을 실시간으로 선별해 주는 방법을 제안한다. 이 방법은 단어의 구성 성분을 쪼개는 단계, 쪼갠 단어를 입력으로 활용하여 인코더-디코더 모델을 학습하는 단계, 모델을 통해 얻어낸 추상화된 문장을 활용해 검색하는 단계로 구성된다. 실험 결과, 작은 규모의 데이터에 대해 75%의 정확도를 보임으로써 실용화 가능성이 높은 것으로 나타났다. 이 방법을 통해 학생들은 자신의 어색한 문장을 교정하거나 새로운 표현을 익히고 싶은 경우 다른 사람이 작성한 좋은 예문을 쉽게 참조할 수 있어 자신의 글쓰기 능력을 향상시키는 데에 큰 도움이 될 것으로 기대된다.

생물학 문헌으로부터 단백질 상호작용 정보 추출을 위한 자연어 처리 기법 (Full Parsing Approach to Extracting Protein-to-Protein Interactions from the Biological Literature)

  • 노정호;차재혁;최용석
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (2)
    • /
    • pp.256-258
    • /
    • 2004
  • 단백질 상호작용에 대한 연구는 생명현상의 전반적인 원리를 규명하는데 필수적이다. 생물학 문헌 데이터베이스로부터 단백질 상호작용 정보를 찾는 것은 많은 시간과 노력이 필요하기 때문에 컴퓨터로 자동화시키는 방법이 요구된다. 문헌으로부터 단백질 상호작용 정보를 추출하는 작업은 단순 문자열 비교를 통한 정보검색으로는 한계가 있으므로 자연어 처리 기법을 적용해 문장의 문법 구조, 품사 정보 등을 이용하면 더 정확한 추출이 가능하다. 본 논문에서는 자연어 처리를 이용하여 문장을 트리로 표현한 뒤 가지치기, 병합 등을 통해 추상화된 트리를 패턴과 매칭하는 방법을 제안한다. 그리고 실제 데이터를 이용한 실험 결과를 통해 기존 방법에 비해 더 높아진 정확도를 확인하였다.

  • PDF