• Title/Summary/Keyword: 한국어 의존구조 분석

Search Result 74, Processing Time 0.026 seconds

Dependency Relation Analysis using Case Frame for Encyclopedia Question-Answering System (백과사전 질의응답을 위한 격틀 기반 의존관계 분석)

  • Lim, Soo-Jong;Jung, Eui-Suk;Jang, Myoung-Gil
    • Annual Conference on Human and Language Technology
    • /
    • 2004.10d
    • /
    • pp.167-172
    • /
    • 2004
  • 백과사전에서 정답을 찾기 위한 정보 중의 하나로 구조분석 정보를 이용하기 위하여 의존 관계 분석을 통해 정확한 구조분석에 대한 연구를 하였다. 정답을 찾기 위한 대상이 되는 용언과 논항의 관계를 파악하기 위해 먼저 의존관계 분석의 모호성 정도를 줄이기 위해 문장을 구묶음으로 나누었고 나눠진 구묶음에서 중심어와 중심어에 해당하는 의미코드를 추출하였다. 이렇게 구분된 구묶음 간의 의존관계를 파악하기 위하여 주로 격틀과 의미코드에 의존하는 의미자질, 거리 자질, 격관계 자질, 절형태 자질을 이용하여 의존관계 모호성을 해소하였다. 백과사전의 특성상 생략되는 성분과 연속 동사 처리를 하여 보다 정확하게 백과사전 QA시스템에서 정답을 찾을 수 있는 정보를 제공하도록 하였다. 실험결과 동사구와 명사구의 의존관계는 89.43의 성능을 보였고 의존관계에 격을 부여한 경우는 78.40%의 정확율, 백과사전 후처리에 해당하는 복원은 68.23의 성능을 보인다.

  • PDF

Korean Transition-based Dependency Parsing with Recurrent Neural Network (순환 신경망을 이용한 전이 기반 한국어 의존 구문 분석)

  • Li, Jianri;Lee, Jong-Hyeok
    • KIISE Transactions on Computing Practices
    • /
    • v.21 no.8
    • /
    • pp.567-571
    • /
    • 2015
  • Transition-based dependency parsing requires much time and efforts to design and select features from a very large number of possible combinations. Recent studies have successfully applied Multi-Layer Perceptrons (MLP) to find solutions to this problem and to reduce the data sparseness. However, most of these methods have adopted greedy search and can only consider a limited amount of information from the context window. In this study, we use a Recurrent Neural Network to handle long dependencies between sub dependency trees of current state and current transition action. The results indicate that our method provided a higher accuracy (UAS) than an MLP based model.

Korean Sematic Role Labeling Using CRFs (CRFs 기반의 한국어 의미역 결정)

  • Park, Tae-Ho;Cha, Jeong-Won
    • Annual Conference on Human and Language Technology
    • /
    • 2015.10a
    • /
    • pp.11-14
    • /
    • 2015
  • 의미역 결정은 서술어와 논항들 사이의 의미 관계를 결정하는 문제이다. 의미역 결정을 위해 구구조 정보와 의존 구조 정보 등의 다양한 자질에 대한 실험이 있었다. 논항은 구문 구조에서 얻을 수 있는 서술어와 논항 관계에 많은 영향을 받지만 구문 구조가 변경되어도 변하지 않는 논항의 의미로 인해 의미역 결정에 어려운 점이 있다. 본 논문에서는 한국어 의미역 결정 문제를 위해 Korean Propbank 말뭉치와 직접 구축한 의미역 말뭉치를 학습 말뭉치로 사용하였다. 본 논문에서는 이전에 연구된 구문 정보와 그 외의 자질들에 대한 성능을 검증하였다. 본 논문에서 제시하는 자질들의 성능을 검증하기 위해 CRF를 사용하였고, 제시된 새로운 자질을 사용하여 논항의 인식 및 분류에서 76.25%(F1)의 성능을 보였다.

  • PDF

Graph Neural Networks for Korean Dependency Parsing (Graph Neural Networks을 이용한 한국어 의존 구문 분석)

  • Min, Jin-Woo;Hong, Seung-Yean;Lee, Young-Hoon;Na, Seung-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.537-539
    • /
    • 2019
  • 구문 분석은 문장의 구조를 분석하는 자연어처리 분야로 그래프 기반 방법과 전이 기반 방법으로 나뉘어 연구되어 왔다. 본 논문에서는 그래프 기반 방식에서 높은 성능을 보이고 있는 Deep Biaffine 어텐션 모델에 별도의 High-Order 정보 추출 없이 Graph Neural Network(GNNs)을 이용하여 High-Order 정보를 학습할 수 있도록 확장한 Deep Biaffine 어텐션 GNNs을 적용하여 한국어 세종 구문 분석 셋에서 UAS : 94.44%, LAS : 92.55%의 성능을 달성하였으며 Dual Decomposition을 통해 전이 기반 한국어 구문 분석 모델과 결합하여 추가적인 성능 향상을 보였다.

  • PDF

Exploiting Chunking for Dependency Parsing in Korean (한국어에서 의존 구문분석을 위한 구묶음의 활용)

  • Namgoong, Young;Kim, Jae-Hoon
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.11 no.7
    • /
    • pp.291-298
    • /
    • 2022
  • In this paper, we present a method for dependency parsing with chunking in Korean. Dependency parsing is a task of determining a governor of every word in a sentence. In general, we used to determine the syntactic governor in Korean and should transform the syntactic structure into semantic structure for further processing like semantic analysis in natural language processing. There is a notorious problem to determine whether syntactic or semantic governor. For example, the syntactic governor of the word "먹고 (eat)" in the sentence "밥을 먹고 싶다 (would like to eat)" is "싶다 (would like to)", which is an auxiliary verb and therefore can not be a semantic governor. In order to mitigate this somewhat, we propose a Korean dependency parsing after chunking, which is a process of segmenting a sentence into constituents. A constituent is a word or a group of words that function as a single unit within a dependency structure and is called a chunk in this paper. Compared to traditional dependency parsing, there are some advantage of the proposed method: (1) The number of input units in parsing can be reduced and then the parsing speed could be faster. (2) The effectiveness of parsing can be improved by considering the relation between two head words in chunks. Through experiments for Sejong dependency corpus, we have shown that the USA and LAS of the proposed method are 86.48% and 84.56%, respectively and the number of input units is reduced by about 22%p.

KoNLTK: Korean Natural Language Toolkit (KoNLTK: 한국어 언어 처리 도구)

  • Nam, Gyu-Hyeon;Lee, Hyun-Young;Kang, Seung-Shik
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.611-613
    • /
    • 2018
  • KoNLTK는 한국어와 관련된 다양한 언어자원과 언어처리 도구들을 파이썬 플랫폼에서 하나의 인터페이스 환경에서 제공하기 위한 언어처리 플랫폼이다. 형태소 분석기, 개체명 인식기, 의존 구조 파서 등 기초 분석 도구들과 단어 벡터, 감정 분석 등 응용 도구들을 제공하여 한국어 텍스트 분석이 필요한 연구자들의 편의성을 증대시킬 수 있다.

  • PDF

Restoring Functional Word and Noun-Verb Syntactic Relations for Korean Compound Noun Analysis (단위 명사간 보-술 관계를 이용한 한국어 복합 명사의 문장 복원)

  • Yang, Seong-Il;Kim, Young-Kil;Seo, Young-Ae;Park, Eun-Jin;Ra, Dong-Yul
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2007.05a
    • /
    • pp.694-695
    • /
    • 2007
  • 한국어 문장의 구성은 명사, 동사와 같은 내용어와 조사, 어미와 같은 기능어로 크게 나눌 수있다. 문장의 핵심적인 의미 전달은 내용어에 의해 이루어지며, 한국어 명사구의 경우 잦은 기능어의 생략으로 명사 나열에 의한 복합 명사가 발생된다. 이렇게 발생되는 복합 명사를 구성하는 단위 명사들은 일부 문장 성분을 생략시켜 발생된 것으로, 생략 성분의 복원에 의해 본래의 문장 형태를 추정할 수 있다. 한국어 복합 명사의 경우, 생략되는 문장 성분은 대부분 접사, 조사와 같은 기능어로 국한되며, 기능어의 복원은 단위 명사 간의 격 관계와 의미 관계를 분석하여 이루어질 수 있다. 본 논문에서는 단위 명사간의 보-술 관계를 이용하여 복합 명사를 구성하는 단위 명사 간의 의존 관계를 추정하고, 추정된 의존 관계에 의해 생략된 격조사와 용언화 접사를 복원하는 방법을 제안한다. 구조 분석에서 사용되는 의미 격틀에 의해 결정되는 격 관계는 격조사와 용언화 접사의 복원을 결정하며, 올바른 본래의 문장 표현 복원을 위해 관형격 조사와 관형격 어미를 비롯한 특별한 형태의 복원은 통계 정보와 휴리스틱 규칙으로 결정한다.

  • PDF

Joint Model for Dependency Parser and Semantic Role Labeling using Recurrent Neural Network Parallelism (순환 신경망 병렬화를 사용한 의존 구문 분석 및 의미역 결정 통합 모델)

  • Park, Seong Sik;Kim, Hark Soo
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.276-279
    • /
    • 2019
  • 의존 구문 분석은 문장을 구성하는 성분들 간의 의존 관계를 분석하고 문장의 구조적 정보를 얻기 위한 기술이다. 의미역 결정은 문장에서 서술어에 해당하는 어절을 찾고 해당 서술어의 논항들을 찾는 자연어 처리의 한 분야이다. 두 기술은 서로 밀접한 상관관계가 존재하며 기존 연구들은 이 상관관계를 이용하기 위해 의존 구문 분석의 결과를 의미역 결정의 자질로써 사용한다. 그러나 이런 방법은 의미역 결정 모델의 오류가 의존 구문 분석에 역전파 되지 않으므로 두 기술의 상관관계를 효과적으로 사용한다고 보기 어렵다. 본 논문은 포인터 네트워크 기반의 의존 구문 분석 모델과 병렬화 순환 신경망 기반의 의미역 결정 모델을 멀티 태스크 방식으로 학습시키는 통합 모델을 제안한다. 제안 모델은 의존 구문 분석 및 의미역 결정 말뭉치인 UProbBank를 실험에 사용하여 의존 구문 분석에서 UAS 0.9327, 의미역 결정에서 PIC F1 0.9952, AIC F1 0.7312의 성능 보였다.

  • PDF

Generating Korean Sentences Using Word2Vec (Word2Vec 모델을 활용한 한국어 문장 생성)

  • Nam, Hyun-Gyu;Lee, Young-Seok
    • Annual Conference on Human and Language Technology
    • /
    • 2017.10a
    • /
    • pp.209-212
    • /
    • 2017
  • 고도화된 머신러닝과 딥러닝 기술은 영상처리, 자연어처리 등의 분야에서 많은 문제를 해결하고 있다. 특히 사용자가 입력한 문장을 분석하고 그에 따른 문장을 생성하는 자연어처리 기술은 기계 번역, 자동 요약, 자동 오류 수정 등에 널리 이용되고 있다. 딥러닝 기반의 자연어처리 기술은 학습을 위해 여러 계층의 신경망을 구성하여 단어 간 의존 관계와 문장 구조를 학습한다. 그러나 학습 과정에서의 계산양이 방대하여 모델을 구성하는데 시간과 비용이 많이 필요하다. 그러나 Word2Vec 모델은 신경망과 유사하게 학습하면서도 선형 구조를 가지고 있어 딥러닝 기반 자연어처리 기술에 비해 적은 시간 복잡도로 고차원의 단어 벡터를 계산할 수 있다. 따라서 본 논문에서는 Word2Vec 모델을 활용하여 한국어 문장을 생성하는 방법을 제시하였다. 본 논문에서는 지정된 문장 템플릿에 유사도가 높은 각 단어들을 적용하여 문장을 구성하는 Word2Vec 모델을 설계하였고, 서로 다른 학습 데이터로부터 생성된 문장을 평가하고 제안한 모델의 활용 방안을 제시하였다.

  • PDF

Korean Dependency Structure Analyzer based on Probabilistic Chart Parsing (확률적 차트 파싱에 기반 한 한국어 의존 구조 분석기)

  • Eun, Ji-Hyun;Jeong, Min-Woo;Lee, Gary Geun-Bae
    • Annual Conference on Human and Language Technology
    • /
    • 2005.10a
    • /
    • pp.105-111
    • /
    • 2005
  • 정형적인 프로그래밍 언어에서는 언어를 기계적으로 해석하기 위해 입력의 구조적인 형태를 구축하는 파싱이 필수적인 과정으로 여겨진다. 기계에 기반 해서 개발된 프로그래밍 언어와 달리, 인간의 자유로운 의사소통을 위해 형성된 자연어는 특유의 다양성으로 인해 어휘, 구문, 의미 분석이 매우 어렵다. 반대로 자연어 구조 분석이 성공적으로 이루어지면 응용 시스템의 성능 향상에 상당한 기여를 할 것이라고 여겨지고, 이로 인해 끊임없이 자연어 처리, 특히 구문 분석에 많은 연구가 이루어지고 있다. 본 논문에서는 파싱에 사용되는 문법 전체를 말뭉치로부터 자동 구축하여 영역별 이식성 및 문법의 효율성을 도모했다. 또한 확률적 차트 파싱 기법과 immediate-head 파싱 모델을 적용하여 기존 파싱 시스템의 성능 향상을 시도했다. 세종 말뭉치를 이용한 파서의 성능은 각각 LP/LR 78.98%/79.55%로 나타났다.

  • PDF