• Title/Summary/Keyword: 의존구문 분석

Search Result 148, Processing Time 0.024 seconds

A Right-to-Left Parsing using Headable Path (지배가능경로를 이용한 오른쪽 우선 구문 분석)

  • Kim, Chang-Hyun;Kim, Jae-Hoon;Seo, Jung-Yun
    • Annual Conference on Human and Language Technology
    • /
    • 1993.10a
    • /
    • pp.35-44
    • /
    • 1993
  • 본 논문에서는 의존문법을 이용해 한국어와 같이 비교적 어순이 자유롭고, 지배성분 후위의 특성을 갖는 언어를 효율적으로 분석할 수 있는 오른쪽 우선 분석 방법을 제안한다. 지배가능경로를 이용하면 생성되는 의존 트리의 수를 줄일 수 있음을 보이며, 의존 관계의 검사를 위해서는 지배가능경로 상의 문장 성분만을 조사하면 됨을 보인다. 한국어에 적용한 실험 결과를 보이며, 각 방식에 따른 비교 기준은 생성되는 외존 트리의 갯수와 분석 수행 시간으로 한다. 이때 한국어 문장성분간의 의존관계는 품사 분류에 의한 기본적인 의존 관계만을 이용하며, 격돌이나 의미 속성 등 추가적인 제약 사항은 이용하지 않는다. 오른쪽 우선 구문 분석은 지배가능경로를 이용함으로써 의존 관계의 빠른 검색을 할 수 있었으며, 문장 지배 성찰을 포함하지 않는 부분 의존 트리를 생성하지 않음으로써 생성되는 의존 트리의 수를 줄일 수 있었다.

  • PDF

2018 Korean Information Processing System Competition: Korean Dependency Parsing (2018 국어 정보 처리 시스템 경진 대회: 한국어 의존 구문 분석)

  • Lee, Changki;Bae, Jangseong;Park, Cheoneum;Hong, Hyejin;Lee, Seung-Jae
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.675-677
    • /
    • 2018
  • 의존 구문 분석은 문장 구조를 중심어와 수식어로 이루어진 의존 관계로 표현하는 방법이다. 표현 방식이 간단하고 자유 어순에 적합하기 때문에 한국어와 같이 어순이 자유롭고 문장 성분의 생략이 빈번한 언어에 적합한 것으로 알려져 있다. 본 논문에서는 한국어 의존 구문 분석 연구를 활성화하기 위해 개최된 2018 국어 정보 처리 시스템 경진대회에서 사용된 학습 및 평가 데이터를 간략히 소개하고, 각 참가자들이 제출한 시스템의 결과를 요약한다.

  • PDF

Korean Parser Using Segmentation Based on Dependency Grammar (의존문법 기반의 구간 분할법을 활용한 한국어 구문 분석기)

  • Park, Yong-Uk
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.13 no.8
    • /
    • pp.1705-1712
    • /
    • 2009
  • Recently, most Korean syntactic analysis systems use Dependency Grammar, because it is quite good to analysis of Korean language structures. But Dependency Grammar makes many ambiguities during syntax analysis of Korean. We implement a system which decreases many ambiguities in syntax analysis. To decrease ambiguities we suggest several methods. First, we use about 200 dependency rules, second, we suggest a new segmentation method and third, one predicate can not have more than one subject or object. Using these methods, we can reduce many ambiguities in Korean syntactic analysis.

Syntactic Analysis based on Subject-Clause Segmentation (S-절 분할을 통한 구문 분석)

  • Kim Mi-Young;Lee Jong-Hyeok
    • Journal of KIISE:Software and Applications
    • /
    • v.32 no.9
    • /
    • pp.936-947
    • /
    • 2005
  • In dependency parsing of long sentences with fewer subjects than predicates, it is difficult to recognize which predicate governs which subject. To handle such syntactic ambiguity between subjects and predicates, this paper proposes an 'S-clause' segmentation method, where an S(ubject)-clause is defined as a group of words containing several predicates and their common subject. We propose an automatic S -clause segmentation method using decision trees. The S-clause information was shown to be very effective in analyzing long sentences, with an improved parsing performance of 5 percent. In addition, the performance in detecting the governor of subjects was improved by $32\%$.

Exploiting Chunking for Dependency Parsing in Korean (한국어에서 의존 구문분석을 위한 구묶음의 활용)

  • Namgoong, Young;Kim, Jae-Hoon
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.11 no.7
    • /
    • pp.291-298
    • /
    • 2022
  • In this paper, we present a method for dependency parsing with chunking in Korean. Dependency parsing is a task of determining a governor of every word in a sentence. In general, we used to determine the syntactic governor in Korean and should transform the syntactic structure into semantic structure for further processing like semantic analysis in natural language processing. There is a notorious problem to determine whether syntactic or semantic governor. For example, the syntactic governor of the word "먹고 (eat)" in the sentence "밥을 먹고 싶다 (would like to eat)" is "싶다 (would like to)", which is an auxiliary verb and therefore can not be a semantic governor. In order to mitigate this somewhat, we propose a Korean dependency parsing after chunking, which is a process of segmenting a sentence into constituents. A constituent is a word or a group of words that function as a single unit within a dependency structure and is called a chunk in this paper. Compared to traditional dependency parsing, there are some advantage of the proposed method: (1) The number of input units in parsing can be reduced and then the parsing speed could be faster. (2) The effectiveness of parsing can be improved by considering the relation between two head words in chunks. Through experiments for Sejong dependency corpus, we have shown that the USA and LAS of the proposed method are 86.48% and 84.56%, respectively and the number of input units is reduced by about 22%p.

Altering LCA of dependency parse trees for improving relation extraction from adjective clauses (형용사구에서의 관계추출 개선을 위한 의존구문트리의 최소공동조상 (LCA) 변경)

  • Lee, Dae-Seok;Myaeng, Sung-Hyon
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.552-556
    • /
    • 2018
  • 본 논문에서는 텍스트에서 개체(entity) 간 관계(relation) 추출 문제에서 의존구문트리를 이용하여 자질을 추출할 때 형용사구 내에 관계가 나타나는 경우의 성능을 향상시키는 방법을 제안한다. 일률적으로 의존구문트리의 최소공동조상(LCA: Least Common Ancestor)을 이용하는 일반적인 방법보다 형용사구가 나타날 때는 형용사구의 술어를 대신 이용하는 것이 더 좋은 자질이 된다는 것을 제안하고 로지스틱 회귀분석, SVM(linear), SVM(exponential kernel)을 이용한 실험들을 통해 그 효과를 확인하였다. 이는 트리커널을 이용한 것과 같이 의존구문트리의 최소공동조상이 주요한 역할을 하는 관계추출 모델들의 성능을 높일 수 있음을 보여 준다. 수행한 실험 과정을 통해 관계추출 데이터 셋에서 형용사구 내 관계를 포함하는 문장이 전체에서 차지하는 비율이 낮을 경우 생길 수 있는 문제를 추가적으로 얻을 수 있었다.

  • PDF

Detection of Protein Subcellular Localization based on Syntactic Dependency Paths (구문 의존 경로에 기반한 단백질의 세포 내 위치 인식)

  • Kim, Mi-Young
    • The KIPS Transactions:PartB
    • /
    • v.15B no.4
    • /
    • pp.375-382
    • /
    • 2008
  • A protein's subcellular localization is considered an essential part of the description of its associated biomolecular phenomena. As the volume of biomolecular reports has increased, there has been a great deal of research on text mining to detect protein subcellular localization information in documents. It has been argued that linguistic information, especially syntactic information, is useful for identifying the subcellular localizations of proteins of interest. However, previous systems for detecting protein subcellular localization information used only shallow syntactic parsers, and showed poor performance. Thus, there remains a need to use a full syntactic parser and to apply deep linguistic knowledge to the analysis of text for protein subcellular localization information. In addition, we have attempted to use semantic information from the WordNet thesaurus. To improve performance in detecting protein subcellular localization information, this paper proposes a three-step method based on a full syntactic dependency parser and WordNet thesaurus. In the first step, we constructed syntactic dependency paths from each protein to its location candidate, and then converted the syntactic dependency paths into dependency trees. In the second step, we retrieved root information of the syntactic dependency trees. In the final step, we extracted syn-semantic patterns of protein subtrees and location subtrees. From the root and subtree nodes, we extracted syntactic category and syntactic direction as syntactic information, and synset offset of the WordNet thesaurus as semantic information. According to the root information and syn-semantic patterns of subtrees from the training data, we extracted (protein, localization) pairs from the test sentences. Even with no biomolecular knowledge, our method showed reasonable performance in experimental results using Medline abstract data. Our proposed method gave an F-measure of 74.53% for training data and 58.90% for test data, significantly outperforming previous methods, by 12-25%.

Neural transition-based joint models for dependency Parsing and semantic role labeling of Korean (뉴럴 전이 기반 한국어 의존 파싱 & 의미역 결정 통합 모델)

  • Min, Jin-Woo;Na, Seung-Hoon;Sin, Jong-Hun;Kim, Young-Kil
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.343-346
    • /
    • 2018
  • 기존의 의미역 결정은 먼저 구문 분석을 수행한 후에 해당 구문 분석 결과를 이용해 의미역 결정 테스크에 적용하는 파이프라인 방식으로 진행한다. 이러한 방식의 학습을 두 번 연이어 진행하기 때문에 시간이 오래 걸리고 또한 구문 파싱과 의미 파싱에 대해 서로 영향을 주지 못하는 단점이 존재하였다. 본 논문에서는 의존 파싱과 의미역 파싱을 동시에 진행하도록 전이 액션을 확장한 의존 파싱 & 의미역 결정 통합 모델을 제안하고 실험 결과, Korean Prop Bank 의미역 결정 데이터 셋에서 파이프라인 방식 전이 기반 방식을 사용한 모델보다 논항 인식 및 분류(AIC) 성능에서 F1 기준 0.14% 높은 결과을 보인다.

  • PDF

A Method for Extracting Dependency Relations Using Chunking and Segmentation (구묶음과 구간분할을 이용한 의존 관계 추출 기법)

  • Park, Eui-Kyu;Cho, Min-Hee;Kim, Seong-Won;Ra, Dong-Yul
    • Annual Conference on Human and Language Technology
    • /
    • 2004.10d
    • /
    • pp.131-137
    • /
    • 2004
  • 본 논문에서는 구묶음과 구간분할에 기반하여 한국어 문장에서 명백한 의존관계를 파악 추출하는 기법에 대해 다룬다. 구묶음 기법은 문장에 나타나는 복합 명사, 본용언/보조용언. 의존명사 등을 묶어서 문장의 구조를 단순하게 만든다. 특히 문장에 다양한 형태로 나타나는 의존명사의 처리를 강화하여 구묶음을 효과적으로 할 수 있도록 하였다. 구간분할 기법은 긴 문장을 여러 개의 구간으로 나누어 각 구간을 구문분석 한다. 각 구간은 분할 이전보다는 단순화된 형태이기 때문에 긴 문장보다는 중의성이 줄어들어 견고한 구문분석을 할 수 있게 된다. 본 논문에서는 한국어 구문분석 시스템 개발의 1 단계 과정으로써 일단 중의성이 있는 상황이 아닌 명백한 의존관계를 수집하는 것을 목표로 한다. 본 논문에서는 실험을 통하여 구묶음과 구간분할 기법이 문장의 구조 중의성을 줄여 줌으로써 보다 많은 명백한 의존관계를 정확하게 추출할 수 있음을 보였다.

  • PDF

Korean Dependency Parsing Using Online Learning (온라인 학습을 이용한 한국어 의존구문분석)

  • Lee, Yong-Hun;Lee, Jong-Hyeok
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2010.06c
    • /
    • pp.299-304
    • /
    • 2010
  • 본 논문에서는 온라인 학습을 이용한 한국어 의존구문분석 방법을 제안한다. CoNLL-X에서 1위를 차지한 그래프 기반 의존구문분석 방법을 한국어에 맞게 변형하고, 한국어의 교착어적 특성을 고려해 한국어에 적합한 자질 집합을 제시하였다. 특히 의존트리의 에지(edge)를 단어와 단어간의 의존관계가 아닌 부분트리(partial tree)와 부분트리의 의존관계로 바라보기 위해 부분트리가 공유하고 있는 기능어 정보를 추가 자질로 사용하였다. 또한 한국어의 지배소 후위(head-final) 언어 특성과 투사성(projectivity)을 이용하여 Eisner(1996) 알고리즘을 사용하지 않고도 O($n^3$)의 CYK알고리즘을 사용할 수 있었고, 이를 이용해 최적의 전역해(global optimum)를 찾을 수 있었다. 각 자질을 위한 최적의 가중치 벡터는 온라인 학습방법 중 하나인 Collins(2002)의 averaged perceptron 알고리즘을 사용함으로써 빠르게 모델을 학습할 수 있었다. 제안 모델을 국어정보베이스(KIBS) 말뭉치에 적용한 결과 어절 단위 정확률 88.42%의 높은 성능을 얻을 수 있었다.

  • PDF