• Title/Summary/Keyword: 문장구조

Search Result 611, Processing Time 0.027 seconds

Head-based Pharse Structure Transfer Dictionary for Korean_English Machine Translation (한.영 기계번역을 위한 중심어 기반 구 구조 변환 사전)

  • Lee, San-Jo;Park, Sang-Kyu;Kim, Yung-Taek
    • Annual Conference on Human and Language Technology
    • /
    • 1994.11a
    • /
    • pp.157-162
    • /
    • 1994
  • 한국어로부터 자연스러운 영어 역어문장을 생성하기 위한 정보를 사전에 일관성있게 수록하는 방법을 제시하였다. 기계번역의 각 과정에서 필요한 정보는 가장 적당한 형태로 사전으로부터 제공되어야 하는 것이 일반적인 방법이다. 그러나 한국어는 어순의 부분적 자유성, 어미의 복잡한 활용규칙, 조사의 다양한 쓰임새로 인해 이러한 규칙들의 정보를 일관되게 사전에 수록하기가 어려운 실정이다. 본 논문에서는 한국어 문장과 역어 문장을 단어나 구 혹은 절등의 구성요소들의 다대다 매핑규칙을 찾고 이들 규칙을 적당한 형태로 사전에 수록하여야하는 어려움에서 벗어나 문장대 문장구조를 직접대응시켜 구구조단위로 분석된 형태의 부분 파서트리 형태의 트리구조를 역어와 함께 사전에 수록하므로써 사전정보를 손쉽게 구축, 유지하고자 하였다. 또 이들 정보를 추출해내는 알고리즘을 사용함으로써 주어진 한국어 문장에 대해 사전에 수록된 가장 자연스러운 형태의 역어문장을 생성할 수 있도록 하였다.

  • PDF

Two-Level Clausal Segmentation Algorithm using Sense Information (의미 정보를 이용한 이단계 단문 분할 알고리즘)

  • Park, Hyun-Jae;Lee, Su-Seon;Woo, Yo-Seop
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10e
    • /
    • pp.237-241
    • /
    • 1999
  • 단문 분할은 한 문장에 중심어인 용언이 복수개인 경우 용언을 중심으로 문장을 나누는 방법이다. 기존의 방법은 정형화된 문장의 경우 효율적인 결과를 얻을 수 있으나 구문적으로 복잡한 문장인 경우는 한계를 보였다. 본 논문에서는 이러한 한계를 극복하기 위해 구문 정보의 단문 분할이 아닌 의미 정보를 활용하여 복잡한 문장을 효율적으로 단문으로 분할하는 방법을 제안한다. 정형화된 문장의 경우와 달리 일상적인 문장은 문장의 구조적 애매성이나 조사의 생략 등이 빈번하므로 의미 수준에서의 단문 분할이 필요하다. 본 논문에서는 의미 영역에서 단문 분할의 할 경우 기존의 방법들의 애매성을 해소할 수 있다는 점을 보인다. 이를 위해, 먼저 하위범주화 사전과 시소러스의 의미 정보를 이용하여 용언과 보어 성분간의 의존구조를 1차적으로 작성하고 이후 구문적인 정보와 기타 문법적인 지식을 사용하여 기타 성분을 의존구조에 점진적으로 포함시켜가는 이단계 단문 분할 알고리즘을 제안한다. 제안된 이단계 단문 분할 방법의 유용성을 보이기 위해 ETRI-KONAN의 말뭉치 중 20,000문장을 반 자동적인 방법으로 술어와 보어 성분간의 의존구조를 태깅한 후 본 논문에서 제안한 방법과 비교하는 실험을 수행한다.

  • PDF

Customized Speech Synthesis for Children with Characteristic Behavioral Patterns (어린이 행동 패턴에 기반한 개별화된 음성 합성)

  • Lee, Ho-Joon;Park, Jong-C.
    • 한국HCI학회:학술대회논문집
    • /
    • 2006.02a
    • /
    • pp.571-578
    • /
    • 2006
  • 음성을 통한 사용자 간의 정보 교환 방법은 추가적인 훈련 과정이나 장비가 필요하지 않고 공간 제약이 거의 없기 때문에 노약자 등 사용자의 연령대에 관계없이 사용될 수 있다. 또한 음성 정보는 시각이나 촉각 등 다른 정보 수단과의 상호 작용으로 상승 효과를 유발할 수 있기 때문에 사람과 기계 사이의 인터페이스로 활용될 경우 정보 전달력을 높이면서 사용자 친화적인 서비스를 제공할 수 있다. 그러나 동일한 상황에서 동일한 유형의 음성 정보가 사용자에게 지속적으로 제공될 경우 표현상의 단조로움으로 인해 정보 전달력이 급감할 수 있는 문제점도 지니고 있다. 따라서 음성을 통한 정보 전달의 경우 동일 상황이라 하더라도 사용자의 행동 패턴, 심리 상태, 주변 환경 등에 따라 차별화된 문장 구조 및 어휘의 선택으로 긴장감을 유지시켜 줄 수 있어야 한다. 본 논문에서는 5 세 전후의 어린이를 대상으로 그들의 행동 패턴 분석에 기반하여 개별화된 음성 합성 결과를 제공하는 시스템을 제안한다. 이를 위해 유치원이라는 물리적 공간에서 어린이들의 주된 행동 패턴을 분석하고, 현직 유치원 교사를 대상으로 동일한 정보를 전달하는 조건을 통하여 어린이의 행동 패턴과 위치 정보, 연령 및 성격에 따른 발화 문장의 문장 구조와 어휘적 특성을 파악한다. 최종적으로, 개별화된 음성 합성 결과를 위해 유치원 공간을 시뮬레이션 하고 RFID 를 이용하여 어린이의 행동 패턴 및 위치 정보를 파악한다. 그리고 각 상황에 따라 분석된 발화문의 문장 구조와 어휘 특성을 반영하여 음성으로 합성될 문장의 문장 구조 및 어휘를 재구성하여 사용자 개별화된 음성 합성 결과를 생성한다. 이러한 결과를 통해 어린이의 행동 패턴이 발화문의 문장 구조 및 어휘에 미치는 영향에 대해서 살펴보고 재구성된 결과 발화문을 평가한다.

  • PDF

Dependency Parser Integration using Word Level Sentence Routing (단어 단위 문장 분배기를 사용한 의존 구조 분석기 통합)

  • Lee, Jimin;Lee, Jinsik;Lee, Gary Geunbae
    • Annual Conference on Human and Language Technology
    • /
    • 2010.10a
    • /
    • pp.73-77
    • /
    • 2010
  • 본 논문은 의존 구조 분석기를 통합하기 위해 입력 문장의 단어 특성을 활용하는 단어 단위 분배기를 제안한다. 본 모델은 기존의 문장 수준 분배기와는 달리 입력 문장의 단어 특성에 따라 가장 적절한 의존 구조 분석기를 선택하고, 선택된 의존 구조 분석기의 결과를 최종 결과로 사용한다. 기존의 문장 단위 분배기보다 단어 수준의 풍부한 특질을 활용할 수 있다는 장점과 큰 크기의 코퍼스를 사용할 수 있다는 장점이 있다. 총 6개 언어의 LAS를 측정했는데, MALT 보다는 평균 1.98%, MST 보다는 0.54%의 성능 향상이 있었다.

  • PDF

Generating Korean Sentences Using Word2Vec (Word2Vec 모델을 활용한 한국어 문장 생성)

  • Nam, Hyun-Gyu;Lee, Young-Seok
    • Annual Conference on Human and Language Technology
    • /
    • 2017.10a
    • /
    • pp.209-212
    • /
    • 2017
  • 고도화된 머신러닝과 딥러닝 기술은 영상처리, 자연어처리 등의 분야에서 많은 문제를 해결하고 있다. 특히 사용자가 입력한 문장을 분석하고 그에 따른 문장을 생성하는 자연어처리 기술은 기계 번역, 자동 요약, 자동 오류 수정 등에 널리 이용되고 있다. 딥러닝 기반의 자연어처리 기술은 학습을 위해 여러 계층의 신경망을 구성하여 단어 간 의존 관계와 문장 구조를 학습한다. 그러나 학습 과정에서의 계산양이 방대하여 모델을 구성하는데 시간과 비용이 많이 필요하다. 그러나 Word2Vec 모델은 신경망과 유사하게 학습하면서도 선형 구조를 가지고 있어 딥러닝 기반 자연어처리 기술에 비해 적은 시간 복잡도로 고차원의 단어 벡터를 계산할 수 있다. 따라서 본 논문에서는 Word2Vec 모델을 활용하여 한국어 문장을 생성하는 방법을 제시하였다. 본 논문에서는 지정된 문장 템플릿에 유사도가 높은 각 단어들을 적용하여 문장을 구성하는 Word2Vec 모델을 설계하였고, 서로 다른 학습 데이터로부터 생성된 문장을 평가하고 제안한 모델의 활용 방안을 제시하였다.

  • PDF

Generating Korean Sentences Using Word2Vec (Word2Vec 모델을 활용한 한국어 문장 생성)

  • Nam, Hyun-Gyu;Lee, Young-Seok
    • 한국어정보학회:학술대회논문집
    • /
    • 2017.10a
    • /
    • pp.209-212
    • /
    • 2017
  • 고도화된 머신러닝과 딥러닝 기술은 영상처리, 자연어처리 등의 분야에서 많은 문제를 해결하고 있다. 특히 사용자가 입력한 문장을 분석하고 그에 따른 문장을 생성하는 자연어처리 기술은 기계 번역, 자동 요약, 자동 오류 수정 등에 널리 이용되고 있다. 딥러닝 기반의 자연어처리 기술은 학습을 위해 여러 계층의 신경망을 구성하여 단어 간 의존 관계와 문장 구조를 학습한다. 그러나 학습 과정에서의 계산양이 방대하여 모델을 구성하는데 시간과 비용이 많이 필요하다. 그러나 Word2Vec 모델은 신경망과 유사하게 학습하면서도 선형 구조를 가지고 있어 딥러닝 기반 자연어처리 기술에 비해 적은 시간 복잡도로 고차원의 단어 벡터를 계산할 수 있다. 따라서 본 논문에서는 Word2Vec 모델을 활용하여 한국어 문장을 생성하는 방법을 제시하였다. 본 논문에서는 지정된 문장 템플릿에 유사도가 높은 각 단어들을 적용하여 문장을 구성하는 Word2Vec 모델을 설계하였고, 서로 다른 학습 데이터로부터 생성된 문장을 평가하고 제안한 모델의 활용 방안을 제시하였다.

  • PDF

The Web Based Grading System of Subjective Test in Chinese Writing Using Natural Language Processing (자연어 처리 과정을 이용한 웹기반 한문 주관식 채점 시스템)

  • Bae, Hwa-Sik;Jung, Soon-Ho
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2005.11a
    • /
    • pp.813-816
    • /
    • 2005
  • 본 논문에서는 한문 문장의 기본구조를 자연어 처리과정을 이용하여 채점하는 시스템을 구현하고자 하였다. 기존의 주관식 채점시스템은 단답형이 대부분이며, 서술형은 문장에서 키워드를 추출하여 유사도를 비교한 후 채점하는 방식으로 키워드 추출 시 명사류만 대상으로 하여 다른 품사들은 누락되며, 또한 문장의 구조를 간과하는 문제점이 있다. 본 시스템은 자연어 처리과정을 이용한 것으로 어휘분석과 구문분석을 통해 문장구조를 확인하고, 문장성분별로 해당 단어를 정확하게 사용하였는가를 검사하여 채점함으로써 기존의 문제점을 개선한다.

  • PDF

Hierarchical Learning for Semantic Role Labeling with Syntax Information (계층형 문장 구조 인코더를 이용한 한국어 의미역 결정)

  • Kim, Bong-Su;Kim, Jungwook;Whang, Taesun;Lee, Saebyeok
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.199-202
    • /
    • 2021
  • 의미역 결정은 입력된 문장 내 어절간의 의미 관계를 예측하기 위한 자연어처리 태스크이며, 핵심 서술어에 따라 상이한 의미역 집합들이 존재한다. 기존의 연구는 문장 내의 서술어의 개수만큼 입력 문장을 확장해 순차 태깅 문제로 접근한다. 본 연구에서는 확장된 입력 문장에 대해 구문 분석을 수행 후 추출된 문장 구조 정보를 의미역 결정 모델의 자질로 사용한다. 이를 위해 기존에 학습된 구문 분석 모델의 파라미터를 전이하여 논항의 위치를 예측한 후 파이프라인을 통해 의미역 결정 모델을 학습시킨다. ALBERT 사전학습 모델을 통해 입력 토큰의 표현을 얻은 후, 논항의 위치에 대응되는 표현을 따로 추상화하기 위한 계층형 트랜스포머 인코더 레이어 구조를 추가했다. 실험결과 Korean Propbank 데이터에 대해 F1 85.59의 성능을 보였다.

  • PDF

Text Structuring using Centering Theory (중심화 이론을 이용한 텍스트 구조화)

  • Roh, Ji-Eun;Na, Seung-Hoon;Lee, Jong-Hyeok
    • Journal of KIISE:Software and Applications
    • /
    • v.34 no.6
    • /
    • pp.572-583
    • /
    • 2007
  • This paper investigates Centering-based metrics to evaluate ordering of utterances for text structuring. We point out a problem of MIN.NOCB metric which has been regarded as the simplest and best measure to evaluate coherence of ordering within Centering framework, and propose a new Centering-based metric, MAX.CPS as an alternative or supplementary one. This paper introduces a framework which pre-estimates the effectiveness of a metric on a given input ordering, and selects an applicable metric according to the pre-estimation result. Using this framework, we propose a new policy which can generate more optimal ordering within Centering framework. Moreover, we evaluate several kinds of Cf-ranking methods in terms of Centering-based metrics, and find that simply ranking entities by their linear order is generally the most suitable because of characteristics in Korean.

The methodology of automatic hierarchical definition for the sentences in engineering documents (엔지니어링 문서의 문장 자동 계층정의 방법론)

  • Park, Sang-Il;Kim, Bong-Geun;Kim, Kyeong-Hwan;Lee, Sang-Ho
    • Proceedings of the Computational Structural Engineering Institute Conference
    • /
    • 2009.04a
    • /
    • pp.352-355
    • /
    • 2009
  • 본 연구에서는 토목분야의 엔지니어링 문서를 대상으로 자동으로 문장의 계층을 정의하여 비 구조화 문서를 준 구조화 문서로 변환하는 방법론을 제시하고, 이를 시범적으로 구현하였다. 이는 기본적으로 문장의 머리기호가 그 문서에서의 계층을 표현한다는 점을 바탕으로 연구가 이루어졌다. 이를 위하여 본 연구에서는 첫째, 문장을 머리기호와 내용으로 분리하는 방법을 개발하였고, 둘째, 분리한 머리기호를 바탕으로 머리기호간 상대적인 위치를 파악하여 문장의 계층을 정의하는 프로세스를 제안하였다. 또한 제안한 방법을 이용하여 구현한 시범 모듈을 실무에서 사용하는 엔지니어링 문서를 대상으로 성능을 평가하여 개발한 모듈의 효용성을 검증하였다.

  • PDF