• Title/Summary/Keyword: 한국어 의존구조 분석

Search Result 74, Processing Time 0.022 seconds

Unification based Chart Parsing for Korean (Chart와 단일화를 이용한 한국어 분석 기법)

  • Kwon, Hyuk-Chul;Chae, Young-Soog;Yun, Ae-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 1989.10a
    • /
    • pp.15-20
    • /
    • 1989
  • 이 논문은 상대적으로 어순이 자유로운 언어인 한국어의 특성을 반영하면서, 모든 가능한 문장 구조를 분석할 수 있는 한국어 분석 방법을 제시한다. 특히 구절 구조에 의한 통사 표현 기능을 하위 범주화와 단일화에 의해 보완하는 기법을 이용하면서, bottom-up과 left-right에 의해 분석이 가능한 단일 과정 (one-path) 분석 기법을 이용하는 것이 본 논문의 특징이다. 그리고 하위 범주화와 서술어의 어미가 가진 양상 정보에 의존하여 한국어의 내포문 처리가 이루어져야함을 보여준다.

  • PDF

Korean Natural Language Processing Platform for Linked Data (Linked Data를 위한 한국어 자연언어처리 플랫폼)

  • Hahm, YoungGyun;Lim, Kyungtae;Rezk, Martin;Park, Jungyeul;Yoon, Yongun;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2012.10a
    • /
    • pp.16-20
    • /
    • 2012
  • 본 논문에서는 한국어 자연언어처리를 위해 형태소분석기와 구구조 구문분석기와 의존구조 구문분석기를 통합한 하나의 플랫폼을 제공하고, 외국의 다양한 자연언어처리 도구들의 결과물과의 국제적 상호운용성 및 Linked Data를 위한 RDF 형태로의 변환 시스템을 제시한다.

  • PDF

Unsupervised Korean Word Sense Disambiguation using CoreNet (코어넷을 활용한 비지도 한국어 어의 중의성 해소)

  • Han, Kijong;Nam, Sangha;Kim, Jiseong;Hahm, YoungGyun;Choi, Key-Sun
    • 한국어정보학회:학술대회논문집
    • /
    • 2017.10a
    • /
    • pp.153-158
    • /
    • 2017
  • 본 논문은 한국어 어휘 의미망인 코어넷(CoreNet)을 활용한 비지도학습 방식의 한국어 어의 중의성 해소(Word Sense Dsiambiguation)에 대한 연구이다. 어의 중의성 해소의 실질적인 응용을 위해서는 합리적인 수준으로 의미 후보를 나눌 필요성이 있다. 이를 위해 동형이의어와 코어넷의 개념체계를 활용하여 의미 후보를 나누어서 진행하였으며 이렇게 나눈 것이 실제 활용에서 의미가 있음을 실험을 통해 보였다. 접근 방식으로는 문맥 속에서 서로 영향을 미치는 어휘의 의미들을 동시에 고려하여 중의성 해소를 할 수 있도록 마코프랜덤필드와 의존구조 분석을 바탕으로 한 지식 기반 모델을 사용하였다. 이 과정에서도 코어넷의 개념체계를 활용하였다. 이 방식을 통해 임의의 모든 어휘에 대해 중의성 해소를 하도록 직접 구축한 데이터 셋에 대하여 80.9%의 정확도를 보였다.

  • PDF

Detecting Errors in Dependency Treebank through XGBoost and Cross Validation (XGBoost와 교차 검증을 이용한 구문분석 말뭉치에서의 오류 탐지)

  • Choi, Min-Seok;Kim, Chang-Hyun;Cheon, Min-Ah;Park, Hyuk-Ro;Kim, Jae-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.103-107
    • /
    • 2020
  • 의존구조 말뭉치는 자연언어처리 분야에서 문장의 의존관계를 파악하는데 널리 사용된다. 이러한 말뭉치는 일반적으로 오류가 없다고 가정하지만, 현실적으로는 다양한 오류를 포함하고 있다. 이러한 오류들은 성능 저하의 요인이 된다. 이러한 문제를 완화하려고 본 논문에서는 XGBoost와 교차검증을 이용하여 이미 구축된 구문분석 말뭉치로부터 오류를 탐지하는 방법을 제안한다. 그러나 오류가 부착된 학습말뭉치가 존재하지 않으므로, 일반적인 분류기로서 오류를 검출할 수 없다. 본 논문에서는 분류기의 결과를 분석하여 오류를 검출하는 방법을 제안한다. 성능을 분석하려고 표본집단과 모집단의 오류 분포의 차이를 분석하였고 표본집단과 모집단의 오류 분포의 차이가 거의 없는 것으로 보아 제안된 방법이 타당함을 알 수 있었다. 앞으로 의미역 부착 말뭉치에 적용할 계획이다.

  • PDF

Natural Language Inference using Dependency Parsing (의존 구문 분석을 활용한 자연어 추론)

  • Kim, Seul-gi;Kim, Hong-Jin;Kim, Hark-Soo
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.189-194
    • /
    • 2021
  • 자연어 추론은 두 문장 사이의 의미 관계를 분류하는 작업이다. 본 논문에서 제안하는 의미 추론 방법은 의존 구문 분석을 사용하여 동일한 구문 정보나 기능 정보를 가진 두 개의 (피지배소, 지배소) 어절 쌍에서 하나의 어절이 겹칠 때 두 피지배소를 하나의 청크로 만들어주고 청크 기준으로 만들어진 의존 구문 분석을 사용하여 자연어 추론 작업을 수행하는 방법을 의미한다. 이러한 의미 추론 방법을 통해 만들어진 청크와 구문 구조 정보를 Biaffine Attention을 사용하여 한 문장에 대한 청크 단위의 구문 구조 정보를 반영하고 구문 구조 정보가 반영된 두 문장을 Bilinear을 통해 관계를 예측하는 시스템을 제안한다. 실험 결과 정확도 90.78%로 가장 높은 성능을 보였다.

  • PDF

On Implementation of Korean-English Machine Translation System through Program Reuse (프로그램 재사용을 통한 한/영 기계번역시스템의 구현에 관한 연구)

  • Kim, Hion-Gun;Yang, Gi-Chul;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 1993.10a
    • /
    • pp.559-570
    • /
    • 1993
  • In this article we present a rapid development of a Korean to English translation system, by the help of general English generator, PENMAN. PENMAN is an English sentence generation system, of which input language is a language specially devised for sentence generation, named Sentence Planning Language(SPL). The language SPL has various features that are necessary for generating sentences, covering both syntactic and semantic features. In this development we integrated a Korean language parser based on dependency grammar and the English sentence generator PENMAN, bridging two systems through a converting module, which converts dependency structures produced by Korean parser into SPL for PENMAN.

  • PDF

PPEditor: Semi-Automatic Annotation Tool for Korean Dependency Structure (PPEditor: 한국어 의존구조 부착을 위한 반자동 말뭉치 구축 도구)

  • Kim Jae-Hoon;Park Eun-Jin
    • The KIPS Transactions:PartB
    • /
    • v.13B no.1 s.104
    • /
    • pp.63-70
    • /
    • 2006
  • In general, a corpus contains lots of linguistic information and is widely used in the field of natural language processing and computational linguistics. The creation of such the corpus, however, is an expensive, labor-intensive and time-consuming work. To alleviate this problem, annotation tools to build corpora with much linguistic information is indispensable. In this paper, we design and implement an annotation tool for establishing a Korean dependency tree-tagged corpus. The most ideal way is to fully automatically create the corpus without annotators' interventions, but as a matter of fact, it is impossible. The proposed tool is semi-automatic like most other annotation tools and is designed to edit errors, which are generated by basic analyzers like part-of-speech tagger and (partial) parser. We also design it to avoid repetitive works while editing the errors and to use it easily and friendly. Using the proposed annotation tool, 10,000 Korean sentences containing over 20 words are annotated with dependency structures. For 2 months, eight annotators have worked every 4 hours a day. We are confident that we can have accurate and consistent annotations as well as reduced labor and time.

Unsupervised Korean Word Sense Disambiguation using CoreNet (코어넷을 활용한 비지도 한국어 어의 중의성 해소)

  • Han, Kijong;Nam, Sangha;Kim, Jiseong;Hahm, YoungGyun;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2017.10a
    • /
    • pp.153-158
    • /
    • 2017
  • 본 논문은 한국어 어휘 의미망인 코어넷(CoreNet)을 활용한 비지도학습 방식의 한국어 어의 중의성 해소(Word Sense Dsiambiguation)에 대한 연구이다. 어의 중의성 해소의 실질적인 응용을 위해서는 합리적인 수준으로 의미 후보를 나눌 필요성이 있다. 이를 위해 동형이의어와 코어넷의 개념체계를 활용하여 의미 후보를 나누어서 진행하였으며 이렇게 나눈 것이 실제 활용에서 의미가 있음을 실험을 통해 보였다. 접근 방식으로는 문맥 속에서 서로 영향을 미치는 어휘의 의미들을 동시에 고려하여 중의성 해소를 할 수 있도록 마코프랜덤필드와 의존구조 분석을 바탕으로 한 지식 기반 모델을 사용하였다. 이 과정에서도 코어넷의 개념체계를 활용하였다. 이 방식을 통해 임의의 모든 어휘에 대해 중의성 해소를 하도록 직접 구축한 데이터 셋에 대하여 80.9%의 정확도를 보였다.

  • PDF

Generating Korean Sentences Using Word2Vec (Word2Vec 모델을 활용한 한국어 문장 생성)

  • Nam, Hyun-Gyu;Lee, Young-Seok
    • 한국어정보학회:학술대회논문집
    • /
    • 2017.10a
    • /
    • pp.209-212
    • /
    • 2017
  • 고도화된 머신러닝과 딥러닝 기술은 영상처리, 자연어처리 등의 분야에서 많은 문제를 해결하고 있다. 특히 사용자가 입력한 문장을 분석하고 그에 따른 문장을 생성하는 자연어처리 기술은 기계 번역, 자동 요약, 자동 오류 수정 등에 널리 이용되고 있다. 딥러닝 기반의 자연어처리 기술은 학습을 위해 여러 계층의 신경망을 구성하여 단어 간 의존 관계와 문장 구조를 학습한다. 그러나 학습 과정에서의 계산양이 방대하여 모델을 구성하는데 시간과 비용이 많이 필요하다. 그러나 Word2Vec 모델은 신경망과 유사하게 학습하면서도 선형 구조를 가지고 있어 딥러닝 기반 자연어처리 기술에 비해 적은 시간 복잡도로 고차원의 단어 벡터를 계산할 수 있다. 따라서 본 논문에서는 Word2Vec 모델을 활용하여 한국어 문장을 생성하는 방법을 제시하였다. 본 논문에서는 지정된 문장 템플릿에 유사도가 높은 각 단어들을 적용하여 문장을 구성하는 Word2Vec 모델을 설계하였고, 서로 다른 학습 데이터로부터 생성된 문장을 평가하고 제안한 모델의 활용 방안을 제시하였다.

  • PDF

Korean-to-English Machine Translation System based on Verb-Phrase : 'CaptionEye/KE' (용언구에 기반한 한영 기계번역 시스템 : 'CaptionEye/KE')

  • Seo, Young-Ae;Kim, Young-Kil;Seo, Kwang-Jun;Choi, Sung-Kwon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2000.10a
    • /
    • pp.269-272
    • /
    • 2000
  • 본 논문에서는 ETRI에서 개발 중인 용언구에 기반한 한영 기계번역 시스템 CaptionEye/KE에 대하여 논술한다. CaptionEye/KE는 대량의 고품질 한-영 양방향 코퍼스로부터 추출된 격틀사전 및 대역패턴, 대역문 연결패턴 등의 언어 지식들을 바탕으로 하여, 한국어의 용언구 단위의 번역을 조합하여 전체 번역을 수행한다. CaptionEye/KE는 변환방식의 기계번역 시스템으로서, 크게 한국어 형태소 분석기, 한국어 구문 분석기, 부분 대역문 연결기, 부분 대역문 생성기, 대역문 선택/정련기, 영어형태소 생성기로 구성된다. 입력된 한국어 문장에 대해 형태소 분석 및 태깅을 수행한 후, 격틀사전을 이용하여 구문구조를 분석하고 의존 트리를 생성해 낸다. 이렇게 생성된 의존 트리로부터 대역문 연결패턴을 이용하여 용언구들간의 연결에 대한 번역을 수행한 후 대역패턴을 이용하여 각 용언구들을 번역하고 문장 정련과정을 거쳐 영어 문장을 최종 생성한다.

  • PDF