• Title/Summary/Keyword: 부분 구문분석

Search Result 94, Processing Time 0.023 seconds

Comma Usage Classification for Improving Parsing Accuracy of Long Sentences in English-Korean Machine Translation (영한 기계번역에서 긴 문장의 구문 분석 정확성 향상을 위한 쉼표의 용도 분류)

  • Kim, Sung-Dong;Park, Sung-Hoon
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.10b
    • /
    • pp.1-6
    • /
    • 2006
  • 영한 기계번역에서 긴 문장은 분석 복잡도가 높아서 정확하게 분석하기 어렵다. 본 논문에서는 영어 구문 분석의 정확성을 향상시키기 위해서 긴 문장을 구성하는 쉼표의 역할을 자동적으로 판단하는 방법을 연구하였다. 쉼표는 긴 문장을 구성할 때 많이 사용되며 하나의 긴 문장을 만들 때 다양한 역할을 한다. 긴 문장을 분석할 때 쉼표에 의해 분할되는 부분을 독립적으로 분할하고 쉼표의 역할에 따라 분석된 결과를 적절하게 결합한다면 보다 빠르고 정확하게 주어진 문장 구조를 얻을 수 있다. 본 논문에서는 쉼표의 용도가 표시된 말뭉치로부터 분포 차이를 이용하여 쉼표 분류 규칙을 생성한다. 실험을 통해 논문에서 제시한 방법과 다른 학습방법에 의한 쉼표 분류의 정확도를 비교하여 본 논문에서 제시한 방법이 실용적 가치가 있음을 보인다.

  • PDF

Korean-to-English Machine Translation System based on Verb-Phrase : 'CaptionEye/KE' (용언구에 기반한 한영 기계번역 시스템 : 'CaptionEye/KE')

  • Seo, Young-Ae;Kim, Young-Kil;Seo, Kwang-Jun;Choi, Sung-Kwon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2000.10a
    • /
    • pp.269-272
    • /
    • 2000
  • 본 논문에서는 ETRI에서 개발 중인 용언구에 기반한 한영 기계번역 시스템 CaptionEye/KE에 대하여 논술한다. CaptionEye/KE는 대량의 고품질 한-영 양방향 코퍼스로부터 추출된 격틀사전 및 대역패턴, 대역문 연결패턴 등의 언어 지식들을 바탕으로 하여, 한국어의 용언구 단위의 번역을 조합하여 전체 번역을 수행한다. CaptionEye/KE는 변환방식의 기계번역 시스템으로서, 크게 한국어 형태소 분석기, 한국어 구문 분석기, 부분 대역문 연결기, 부분 대역문 생성기, 대역문 선택/정련기, 영어형태소 생성기로 구성된다. 입력된 한국어 문장에 대해 형태소 분석 및 태깅을 수행한 후, 격틀사전을 이용하여 구문구조를 분석하고 의존 트리를 생성해 낸다. 이렇게 생성된 의존 트리로부터 대역문 연결패턴을 이용하여 용언구들간의 연결에 대한 번역을 수행한 후 대역패턴을 이용하여 각 용언구들을 번역하고 문장 정련과정을 거쳐 영어 문장을 최종 생성한다.

  • PDF

A Right-to-Left Parsing using Headable Path (지배가능경로를 이용한 오른쪽 우선 구문 분석)

  • Kim, Chang-Hyun;Kim, Jae-Hoon;Seo, Jung-Yun
    • Annual Conference on Human and Language Technology
    • /
    • 1993.10a
    • /
    • pp.35-44
    • /
    • 1993
  • 본 논문에서는 의존문법을 이용해 한국어와 같이 비교적 어순이 자유롭고, 지배성분 후위의 특성을 갖는 언어를 효율적으로 분석할 수 있는 오른쪽 우선 분석 방법을 제안한다. 지배가능경로를 이용하면 생성되는 의존 트리의 수를 줄일 수 있음을 보이며, 의존 관계의 검사를 위해서는 지배가능경로 상의 문장 성분만을 조사하면 됨을 보인다. 한국어에 적용한 실험 결과를 보이며, 각 방식에 따른 비교 기준은 생성되는 외존 트리의 갯수와 분석 수행 시간으로 한다. 이때 한국어 문장성분간의 의존관계는 품사 분류에 의한 기본적인 의존 관계만을 이용하며, 격돌이나 의미 속성 등 추가적인 제약 사항은 이용하지 않는다. 오른쪽 우선 구문 분석은 지배가능경로를 이용함으로써 의존 관계의 빠른 검색을 할 수 있었으며, 문장 지배 성찰을 포함하지 않는 부분 의존 트리를 생성하지 않음으로써 생성되는 의존 트리의 수를 줄일 수 있었다.

  • PDF

A Parallel Programming Environment Implemented with Graphic User Interface (그래픽 사용자 인터페이스로 구현한 병렬 프로그래밍 환경)

  • Yoo, Jeong-Mok;Lee, Dong-Hee;Lee, Mann-Ho
    • The Transactions of the Korea Information Processing Society
    • /
    • v.7 no.8
    • /
    • pp.2388-2399
    • /
    • 2000
  • This paper describes a parallel programming environment to help programmers to write parallel programs. The parallel programming environment does lexical analysis and syntax analysis like front-end part of common compilers, data flow analysis and data dependence analysis for variables used in programs, and various program transformation methods for parallel programming. Especially, graphic user interface is provided for programmer to get parallel programs easily.

  • PDF

Analysis of Compound Noun and Automatic Indexing Using Collocation Information of Nouns and Co-occurrence Information of Predicative Nouns (명사의 연어 정보와 서술성 명사의 공기 정보를 활용한 복합명사 분석 및 자동 색인)

  • Yang, Seung-Hyeon;Chung, Eui-Sok;Yoon, Jun-Tae;Song, Man-Suk
    • Annual Conference on Human and Language Technology
    • /
    • 1997.10a
    • /
    • pp.59-64
    • /
    • 1997
  • 복합명사로부터 적절한 색인어를 추출하는 것은 한국어 정보검색 시스템의 성능 향상에 중요한 역할을 한다. 본 논문에서는 복합명사로부터 색인어 추출을 하기 위해 복합명사 구문 구조 분석 결과를 활용한다. 단일명사가 3개 이상 결합된 복합명사의 경우 각 단일명사의 구문적 관계를 파악하여 적절한 괄호치기를 한 후 색인어를 추출하면 보다 좋은 결과를 얻을 수 있다. 이러한 복합명사 구문 구조 분석을 위해 말뭉치로부터 구조적 중의성이 없는 연어 관계의 완전 복합명사와, 서술성 명사와 공기하는 명사쌍을 추출한 결과를 이용한다. 또한 서술성 명사는 이와 공기하는 명사와 결합되어 복합명사를 이를 가능성이 많고, 복합명사의 형태로 인식되어야만 정확한 의미 파악이 가능하다. 서술성 명사와 공기하는 명사를 파악하여 복합명사를 추출하기 위해서 부분 파서로 공기쌍을 찾아 복합명사 후보를 생성한 후, 이 후보 가운데 적합한 복합명사만을 선택하기 위해 말뭉치에서 추출한 완전 복합명사 사전을 통해 검증한다. 이러한 방법으로 서술성 명사에서 복합명사 형태의 색인어를 추출한다.

  • PDF

Un aspect do la recherche lexico-syntaxique doe constructions $\grave{a}$ verbs support on $cor{\acute{e}}en$ (한국어 기능동사 연구의 한 국면)

  • Hong, Chai-Song
    • Annual Conference on Human and Language Technology
    • /
    • 1993.10a
    • /
    • pp.527-532
    • /
    • 1993
  • 한국어 어휘부 구성에 기능동사(경동사) 구문에 관한 언어정보의 수록은 필수적이다. 범용적 대규모 한국어 어휘자료 database 구축을 위한 기능동사 구문과 언어학적 분석 기술과 관련하여 제기되는 여러 문제들 중에서 기능동사의 어휘적 한정의 문제는, 어휘부 중심의 논의를 펼칠 때, 각별한 중요성을 갖는다. 본 발표에서는 우선 확장된 기능동사 개념에 의거하여 기능동사 정보를 어휘부에 반드시 수록해야 할 논거를 제시하고, 기능동사의 어휘적 한정의 문제를 집중적으로 거론하고자 한다. 요점은 기능동사 구문이 서술명사와 기능동사의 결합에 의해 성립된다고 볼 때 이 두 범주의 어휘적 실현은 예측불가능한 제한적 결합관계에 의해 특징지어지므로, 일정한 서술명사와 결합 가능한 기능동사의 어휘적 형태를 어휘부에서 낱낱이 한정하고 기재하여야 하리라는 것이다. 이를 위한 필수적인 연구작업은 크게 상호보완적인 두 부분으로 이루어진다. 한편 한국어 서술명사의 총체를 목록화하고, 그 개별어휘 하나하나에 대해 가능한 기능동사 구문과, 구체적인 기능동사 어휘를 한정하는 것이 필요하다. 또 한편으로는 한국어 동사의 총체를 목록화하여, 그 개별어휘 하나하나의 가능한 통사적 실현을 체계화하는 과정에서 기능동사 용법을 빠짐없이 가려내는 작업이 요구된다고 보겠다.

  • PDF

A Program Similarity Evaluation using Keyword Extraction on Abstract Syntax Tree (구문트리에서 키워드 추출을 이용한 프로그램 유사도 평가)

  • Kim Young-Chul;Choi Jaeyoung
    • The KIPS Transactions:PartA
    • /
    • v.12A no.2 s.92
    • /
    • pp.109-116
    • /
    • 2005
  • In this paper, we introduce the method that a user analyses the similarity of the two programs by using keyword from the syntactic tree, created after the syntax analysis, and its implementation. The main advantage of the method is the performance improvement through using only keyword of syntax tree. In the paper, we propose the similarity evaluation model and how we extract keyword from syntax tree. In addition, we also show the improvement in the performance in analysis and in the system's structure. We expect that our system will be utilized in the similarity evaluation in text and XML documents.

A Classification of Endings for an Efficient Morphological Analysis of Korean (고성능 한국어 형태소 분석을 위한 어미 분류)

  • 은종진;박선영
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2000.06a
    • /
    • pp.41-47
    • /
    • 2000
  • 한국어 형태소 분석에서 가장 중요한 부분 중 하나가 바로 용언구(서술어)를 분석하는 것이다. 형태소 분석 뿐만 아니라 구문 분석, 의미 분석 단계에서도 정확한 용언구 분석은 매우 중요한 작업 중의 하나이다. 또한, 용언구에는 [체언+지정사+어미] 패턴도 포함되므로, 정보 검색기의 핵심 모듈인 명사 추출기(색인기)의 성능에도 용언구의 분석은 높은 비중을 차지한다. 본 논문에서는 용언구 분석의 정확성을 높이고, 견고하면서 속도도 향상시킬 수 있는 방법으로 새로운 어미 분류를 제안하고자 한다.

  • PDF

Application portable Part-Of-Speech tagger mapping (응용을 위한 폼사 태깅 시스템의 매핑)

  • 김준석;차정원;이근배
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2000.06a
    • /
    • pp.368-375
    • /
    • 2000
  • 품사 태깅 시스템은 자연 언어 처리의 가장 기본이 되는 부분으로 상위 자연 언어 처리 분야인 구문분석, 의미분석의 전처리로 사용되거나, 기계번역, 정보검색이나 음성인식 및 합성등과 같은 많은 응용 시스템을 위해서도 필요하다. 이렇게 여러 가지 목적을 위해 품사 태깅 시스템은 존재하는데, 각각의 응용을 위해서 최적화된 태깅 시스템을 따로 구성하기도 하고, 하나의 태깅 시스템을 여러 가지 응용을 위해서 사용하기도 한다. 이때, 문제가 되는 것 중에 하나는 각 응용마다 요구하는 품사 태그 세트가 다르다는 것이다. 품사 태그세트가 고정되어 있다면 어떤 응용을 위해서는 사용되는 품사 태그세트가 너무 적어서 문제가 되고, 반대로 품사태그세트가 너무 많아서 시스템의 수행속도가 중요시되는 응용에서 성능저하의 요인이 되기도 한다. 본 논문에서는 하나의 태깅 시스템의 품사태그세트를 조절할 수 있도록 하여 몇 가지 응용시스템에 맞게 최적화 시킬 수 있는 방법론을 제시하고 실험을 통해서 시스템의 성능, 유지보수 및 시스템의 여러 리소스 관리 측면에서도 가장 효율적인 방법론임을 입증하고자 한다.

  • PDF

Generalized LR Parser with Conditional Action Model(CAM) using Surface Phrasal Types (표층 구문 타입을 사용한 조건부 연산 모델의 일반화 LR 파서)

  • 곽용재;박소영;황영숙;정후중;이상주;임해창
    • Journal of KIISE:Software and Applications
    • /
    • v.30 no.1_2
    • /
    • pp.81-92
    • /
    • 2003
  • Generalized LR parsing is one of the enhanced LR parsing methods so that it overcome the limit of one-way linear stack of the traditional LR parser using graph-structured stack, and it has been playing an important role of a firm starting point to generate other variations for NL parsing equipped with various mechanisms. In this paper, we propose a conditional Action Model that can solve the problems of conventional probabilistic GLR methods. Previous probabilistic GLR parsers have used relatively limited contextual information for disambiguation due to the high complexity of internal GLR stack. Our proposed model uses Surface Phrasal Types representing the structural characteristics of the parse for its additional contextual information, so that more specified structural preferences can be reflected into the parser. Experimental results show that our GLR parser with the proposed Conditional Action Model outperforms the previous methods by about 6-7% without any lexical information, and our model can utilize the rich stack information for syntactic disambiguation of probabilistic LR parser.