• Title/Summary/Keyword: 구문 정보

Search Result 954, Processing Time 0.022 seconds

Korean Dependency Parsing with Multi-layer Pointer Networks (멀티 레이어 포인터 네트워크를 이용한 한국어 의존 구문 분석)

  • Park, Cheoneum;Hwang, Hyunsun;Lee, Changki;Kim, Hyunki
    • Annual Conference on Human and Language Technology
    • /
    • 2017.10a
    • /
    • pp.92-96
    • /
    • 2017
  • 딥 러닝 모델은 여러 히든 레이어로 구성되며, 히든 레이어의 깊이가 깊어질수록 레이어의 벡터는 높은 수준으로 추상화된다. 본 논문에서는 Encoder RNN의 레이어를 여러 층 쌓은 멀티 레이어 포인터 네트워크를 제안하고, 멀티 태스크 학습 기반인 멀티 레이어 포인터 네트워크를 이용한 한국어 의존 구문 분석 모델을 제안한다. 멀티 태스크 학습 모델은 어절 간의 의존 관계와 의존 레이블 정보를 동시에 구하여 의존 구문 분석을 수행한다. 실험 결과, 본 논문에서 제안한 모델이 기존 한국어 의존 구문 분석 연구들 보다 좋은 UAS 92.16%, LAS 89.88%의 성능을 보였다.

  • PDF

Korean Dependency Parsing using Dynamic Oracle (동적 오라클을 이용한 한국어 의존 구문분석)

  • Lee, Gyoung Ho;Lee, Kong Joo
    • 한국어정보학회:학술대회논문집
    • /
    • 2017.10a
    • /
    • pp.87-91
    • /
    • 2017
  • 구문분석은 자연언어처리의 오랜 관심 분야로 다양한 접근방법과 알고리즘이 시도되어 계속 발전하고 있다. 하지만 기존의 접근방법은, 학습단계에서는 정답으로부터 추출된 이전 정보를 사용하고 평가 단계에서는 예측으로 이루어진 정보를 활용한다는 근본적인 차이가 있다. 이러한 차이를 극복하기 위한 다양한 시도가 있었고 그 중 동적 오라클 기법이 합리적인 시간 증가와 성능향상을 보였다. 본 연구에서는 이러한 동적 오라클 기법을 한국어 구문분석에 적용하였다. 동적 오라클 기법을 한국어에 적용할 때 고려해야하는 부분에 대해 탐구하고 실험을 통해 동적 오라클 기법을 한국어 구문분석에 적용하여 결과를 살펴보았다.

  • PDF

Representation of Local Grammar for Temporal Expression and Analysis of Temporal Phrase with FST (시간 표현에 대한 부분 문법 기술 및 FST를 이용한 시간 구문 분석)

  • Kim, Youn-Gwan;Yoon, Jun-Tae;Song, Man-Suk
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10e
    • /
    • pp.231-236
    • /
    • 1999
  • 시간표현은 문장에서 다른 명사와 결합하여 복합어를 이루는 경우가 있고, 용언과 결합하여 시간 부사의 역할을 하는 경우가 있는데, 이는 구문 분석에 있어서 중의적 해석이 두드러지며, 그 결과 구문 분석의 오류를 빈번히 야기하기도 한다. 본 논문에서는 이러한 시간 관계의 표현을 대량의 말뭉치로부터 획득하고 이들을 부분문법(local grammar)으로 표현한 후, 이것을 FST(Finite State Transducer)를 이용하여 부분 구문분석을 하고자 한다. 이를 위해 5천만 어절의 말뭉치에서 259개의 시간 단어를 추출하였고, 시간 단어들의 의미적 또는 기능적 사용에 의해서 26개의 어휘 범주로 분류하고 각 범주들의 결합관계를 일반화하였다. 실험을 통하여 인식을 위한 시간표현의 결합관계는 최고 97.2%의 정확률을 보였고, 품사태깅에 있어서는 평균 96.8%의 정확률을 보였다. 이는 시간 표현의 결합관계가 부분 구문분석에 있어서 유용한 정보임을 보여준다.

  • PDF

A Korean Conjunctive Structure Analysis based on Sentence Segmentation (구간분할 기반 한국어 대등접속 구문분석 기법)

  • Jang, Jae-Chul;Park, Eui-Kyu;Ra, Dong-Yul
    • Annual Conference on Human and Language Technology
    • /
    • 2002.10e
    • /
    • pp.139-146
    • /
    • 2002
  • 본 논문에서는 한국어의 대등접속의 구문분석 문제를 다룬다. 이를 전체 문장의 구문분석 기법에 기반하도록 하여, 문장 전체에 대한 분석 결과를 가장 좋게 하는 대등접속 구조가 선정되도록 하였다. 본 기법의 특징으로는 구간 분할 기법에 기반하여 대등접속 구조 후보의 수의 감소가 가능하게 되기 때문에 구문분석의 안정화를 얻게 되었다. 또한 전체 구문분석기에서 한 부품으로 동작함으로써 전체 문장 구조가 올바른 대등구조를 선택할 수 있게 되어, 보다 전역적인 정보의 이용에 의한 분석이 되었다. 선접속부와 후접속부 간의 구조 및 어휘적 유사성, 평행연결의 이용 등은 본 기법의 또 다른 특징으로 볼 수 있다. 실험결과 정상적인 문장의 대등접속에 대한 분석에서 매우 효과적으로 동작함을 관찰하였다.

  • PDF

Resolution of Korean Syntactic Ambiguity using Sentence Patterns Information and Clausal Segmentation (문형과 단문 분할을 이용한 한국어 구문 모호성 해결)

  • Lee, Hyeon-Yeong;Hwang, Yi-Gyu;Lee, Yong-Seok
    • Annual Conference on Human and Language Technology
    • /
    • 2000.10d
    • /
    • pp.116-123
    • /
    • 2000
  • 한국어 구문 분석은 체언구 부착이나 부사구 부착의 문제를 가진다. 이런 부착의 문제는 많은 구문 모호성을 만들어 내어 올바른 의미를 가지는 파스 트리의 선택을 어렵게 한다. 한국어에서 이런 부착의 문제는 대부분 한국어 문장이 내포문을 포함하는 복문의 형태로 구성되어 있기 때문이다. 단문에서는 부착의 문제가 발생하지 않지만 복문에서는 체언구나 부사구가 어떤 용언에 부착하느냐에 따라 체언구 부착이나 부사구 부착의 문제가 발생한다. 따라서 용언이 가지는 정보를 이용하여 내포문의 범위를 결정해서 하나의 구문범주의 기능을 가지도록 분할한다. 이를 단문 분할이라 하며 문형이 가지는 필수격들을 최대로 부착하여 이루어진다. 단문분할을 하면 복문의 구조가 단문으로 바뀌므로 이런 부착의 문제가 자연스럽게 해결된다. 본 논문에서는 문형과 단문 분할을 이용하여 많은 구문 모호성을 해결할 수 있음을 제안한다.

  • PDF

Korean Syntactic Parsing with XLNet (XLNet을 이용한 한국어 구문분석)

  • Kim, Min-Seok;Shin, Chang-Uk;Oh, Jinyoung;Cha, Jeong-Won
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.540-542
    • /
    • 2019
  • 문맥기반 사전학습 단어 임베딩이 다양한 분야 적용되어 훌륭한 성능을 보여주고 있다. 본 논문에서는 사전학습한 XLNet 모델을 구문분석에 적용하였다. XLNet은 문장에서 생성 가능한 모든 후보에 대해 트랜스 포머를 기반으로 하는 사전학습을 진행한다. 따라서 문장 전체 정보를 필요로 하는 구문분석에 특히 유용하다. 본 논문에서는 한국어 특성을 반영하기 위하여 형태소 분석을 시행한 107.2GB 크기의 대용량 데이터를 사용해 학습을 진행하였다. 본 논문에서 제안한 모델을 세종 구문 코퍼스에 적용한 결과, UAS 91.93% LAS 89.30%의 성능을 보였다.

  • PDF

Performance Improvement of Korean Indicative Summarizer (공기정보를 이용한 한국어 요약 시스템의 성능개선)

  • 박호진;김준홍;김재훈
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.04b
    • /
    • pp.349-351
    • /
    • 2001
  • 본 논문은 공기정보를 이용하여 한국어 추출요약 시스템의 성능을 개선한다. 여기서 공기정보는 복합명사와 구문관계를 말하며, 복합명사는 인접한 명사들 사이의 공기관계이고, 구문관계는 인접한 명사와 동사 사이의 공기관계를 말한다. 본 논문에서는 공기관계는 t test를 이용하였다. 공기정보를 이용한 시스템은 기존의 시스템보다 좋은 성능을 보였으나, 커다란 성능 향상을 가져오지 못했다. 복합명사는 거의 모든 환경에서 좋은 결과를 가져왔으나, 구문관계는 그렇지 못했다. 앞으로 공기정보의 추출방법을 좀더 개선한다면 좀더 좋은 성능을 기대할 수 있을 것이다.

  • PDF

Loaming Syntactic Constraints for Improving the Efficiency of Korean Parsing (한국어 구문분석의 효율성을 개선하기 위한 구문제약규칙의 학습)

  • Park, So-Young;Kwak, Yong-Jae;Chung, Hoo-Jung;Hwang, Young-Sook;Rim, Hae-Chang
    • Journal of KIISE:Software and Applications
    • /
    • v.29 no.10
    • /
    • pp.755-765
    • /
    • 2002
  • In this paper, we observe various syntactic information for Korean parsing and propose a method to learn constraints and improve the efficiency of a parsing model by using the constraints. The proposed method has the following three characteristics. First, it improves the parsing efficiency since we use constraints that can prevent the parser from generating unsuitable candidates. Second, it is robust on a given Korean sentence because the attributes for the constraints are selected based on the syntactic and lexical idiosyncrasy of Korean. Third, it is easy to acquire constraints automatically from a treebank by using a decision tree learning algorithm. The experimental results show that the parser using acquired constraints can reduce the number of overgenerated candidates up to 1/2~1/3 of candidates and it runs 2~3 times faster than the one without any constraints.

Three-Phase English Syntactic Analysis for Improving the Parsing Efficiency (영어 구문 분석의 효율 개선을 위한 3단계 구문 분석)

  • Kim, Sung-Dong
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.5 no.1
    • /
    • pp.21-28
    • /
    • 2016
  • The performance of an English-Korean machine translation system depends heavily on its English parser. The parser in this paper is a part of the rule-based English-Korean MT system, which includes many syntactic rules and performs the chart-based parsing. The parser generates too many structures due to many syntactic rules, so much time and memory are required. The rule-based parser has difficulty in analyzing and translating the long sentences including the commas because they cause high parsing complexity. In this paper, we propose the 3-phase parsing method with sentence segmentation to efficiently translate the long sentences appearing in usual. Each phase of the syntactic analysis applies its own independent syntactic rules in order to reduce parsing complexity. For the purpose, we classify the syntactic rules into 3 classes and design the 3-phase parsing algorithm. Especially, the syntactic rules in the 3rd class are for the sentence structures composed with commas. We present the automatic rule acquisition method for 3rd class rules from the syntactic analysis of the corpus, with which we aim to continuously improve the coverage of the parsing. The experimental results shows that the proposed 3-phase parsing method is superior to the prior parsing method using only intra-sentence segmentation in terms of the parsing speed/memory efficiency with keeping the translation quality.

Korean Parsing using Sejong Dictionary (세종전자사전을 활용한 한국어 구문분석)

  • Seong, Yeolwon
    • Annual Conference on Human and Language Technology
    • /
    • 2007.10a
    • /
    • pp.261-268
    • /
    • 2007
  • 본 논문에서는 세종전자사전의 정보를 활용하여 논항 결합의 정확도를 향상시키는 한국어 구문분석 모델을 제안한다. 구문분석 과정에서 노드간의 결합 가능성을 계산할 때, 세종전자사전 동사사전의 격틀 정보, 논항 제약 정보와 명사사전의 의미부류 정보를 활용하여 가산점을 부여하여 사전의 내용과 일치하는 결합이 선호되도록 하였다. 이 과정에서 구조적 오류를 해결할 수 있었고, 결합에 참여하는 동사와 명사의 의미 중의성도 해소할 수 있었다. 평균 13어절 길이의 실험용 문장 50개를 대상으로 실험한 결과, 35% 정도의 오류 감소 효과를 볼 수 있었다. 또한 구문분석 결과 정보를, 전자 사전에 기술된 정보의 완결성을 시험하고 보완하는 데에도 활용하였다.

  • PDF