• 제목/요약/키워드: 구문 분석기

검색결과 173건 처리시간 0.028초

분석의 최종 판단자로서의 구문 분석기 (Parser as An Analysis Finisher)

  • 여상화
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2004년도 춘계학술발표대회
    • /
    • pp.677-680
    • /
    • 2004
  • 통상적인 언어 처리의 분석 과정은 전처리, 형태소분석, 품사 태깅, 복합 단위 인식, 구문 분석, 그리고 의미 분석 등의 여러 단계로 이루어진다. 분석의 매 단계에서 중의성(Ambiguity)가 발생하며, 이를 해결하기 위한 노력으로 구문 분석 이전의 분석 단계에서도 정확률(Precision)을 높이기 위해, 어휘(Lexical) 정보, 품사정보 그리고 구문 정보 등을 이용한다. 각 단계에서 고급 정보로서의 구문 정보 이용은 구문분석의 중복성과 분석 지식의 중복성을 야기한다. 또한, 기존의 처리 흐름에서는 각 분석 단계에서의 결과는 최종적인 것으로, 이로 인해 다음 분석 단계에 분석 오류를 전파한다. 본 논문에서는 구문 분석기를 분석 결과의 최종 판단자로 이용할 것을 제안한다. 즉, 구문 분석 전단계의 모든 분석 정보는 구문 분석기에 제공되고, 구문분석기는 상향식 구문분석을 수행하면서 이들 정보들로부터 최종의 그리고 최적의 분석 후보를 결정한다. 이를 위해 구문분석기는 한 문장 단위를 입력 받는 기존의 제한을 따르지 않는다. 제안된 방법은 구문분석 앞 단계에서의 잘못된 정보 제공(예: 문장 분리 오류, 품사 오류, 복합단위 인식 오류 등)으로부터 자유로우며, 이를 통해 분석 실패의 가능성을 최대로 줄인다.

  • PDF

가중치를 가지는 의존관계를 이용한 구문분석 후보의 순위화 방법 (A Method for Ranking Candidate Parse Trees using Weighted Dependency Relation)

  • 류재민;김민호;권혁철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 춘계학술발표대회
    • /
    • pp.924-927
    • /
    • 2017
  • 통계 모형에 기반을 둔 구문분석기는 자료 부족 문제에 취약하거나 장거리 의존관계와 같은 특정 언어현상에 대한 처리가 어렵다는 단점이 있다. 이러한 한계점을 극복하고자 본 연구진은 규칙에 기반을 둔 한국어 구문분석기를 개발하고 있다. 다른 구문 분석기와 다르게 형태소 단위 구문분석을 시도하며 생성 가능한 모든 구문분석 후보를 보여주는 것이 특징이다. 본 연구진의 기존 연구에서 개발한 한국어 구문분석기는 형태소의 입력순서와 구문분석 후보의 생성 순서에 의존하여 구문분석 후보를 순서화하였다. 그러나 생성되는 구문분석 후보 중 가장 정답에 가까운 구문분석 후보의 순위를 낮추기 위해서는 각 구문분석 트리가 특정한 점수를 가질 필요가 있다. 본 논문에서는 품사 태거(tagger)에서 출력하는 어절별 형태소의 순위에 따른 가중치, 수식 거리에 따른 가중치, 특정한 지배-의존 관계에 대한 가중치를 이용해 가중치 합을 가지는 구문분석 후보를 구성하고 이를 정렬하여 이전 연구보다 향상된 성능을 가진 한국어 구문분석기 모델을 제안한다. 실험은 본 연구진이 직접 구축한 평가데이터를 기반으로 진행하였으며 기존의 Unlabeled Attachment Score(UAS) 87.86%에서 제안 모델의 UAS 93.34%로 약 5.48의 성능향상을 확인할 수 있었다.

한영 기계번역에서의 효율적인 구문분석과 번역을 위한 유한상태 변환기 기반 전처리기의 설계 및 구현 (Design and Implementation of Finite-State-Transducer Preprocessor for an Efficient Parsing and Translation in Korean-to-English Machine Translation)

  • 박준식;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.128-134
    • /
    • 1999
  • 기계번역이나 정보검색 등에 적용되는 자연언어처리기술에 있어서 구문분석은 매우 중요한 위치를 차지한다. 하지만, 문장의 길이가 증가함에 따라 구문분석의 복잡도는 크게 증가하게 된다. 이를 해결하기 위한 많은 노력 중에서 전처리기의 지원을 통해 구문분석기의 부담을 줄이려는 방법이 있다. 본 논문에서는 구문분석의 애매성과 복잡성을 감소시키기 위해 유한상태 변환기 (Finite-State-Transducer FSI)를 이용한 전처리기를 제안한다. 유한상태 변환기는 사전표현, 단어분할, 품사태깅 등에 널리 사용되어 왔는데, 본 논문에서는 유한상태 변환기를 이용하여 형태소 분석된 문장에서 시간표현 등의 제한된 표현들을 구문요소화하는 전처리기를 설계 및 구현하였다. 본 논문에서는 기계번역기에서의 구문분석기 뿐만 아니라 변환지식의 모듈화를 지원하기 위해 유한상태 변환기를 이용하여 시간표현 등의 부분적인 표현들을 번역하는 방법을 제안한다. 또한 유한상태 변환기의 편리한 작성을 위하여 유한상태 변환기 작성 지원도구를 구현하였다. 본 논문에서는 전처리기의 적용을 통해 구문분석기의 부담을 덜어 주며 기계번역기의 변환부분의 일부를 성공적으로 담당할 수 있음을 보여 준다.

  • PDF

모빌구조와 표지 개념에 의한 지식기반적 한국어 구문분석기 개발 (Developing Knowledge-Based Korean Syntactic Parser In terms of Mobile Configuration and Marker Theory)

  • 우순조
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2003년도 제15회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.184-190
    • /
    • 2003
  • 이 글은 활용 개념과 수형도를 근간으로 기술되어 온 한국어 문법 모델에 대한 대안으로 표지 개념과 모빌 구조를 제시하고 이를 바탕으로 개발된 한국어 구문분석기의 특성을 소개하고자 한다. 먼저, 조사와 어미를 독자적인 토사 단위인 표지로 처리함으로써 국부 구조의 통사 범주와 문법적 기능을 명확하고 일관되게 구분할 수 있으며, 모빌 구조는 한국어의(상대적) 자유 어순 현상을 효과적으로 기술할 수 있다. 이에 의거한 문법 모형은 언어학적 지식과 구문분석 엔진 사이의 독립성을 향상시킴으로써 향후 구문분석기의 성능 개선을 보다 용이하게 한다. 이 글에서 소개하는 구문분석기는 언어학자에 의해 구축된 지식을 이용한다는 점에서 지식기반적이라고 할 수 있는데 여기에는 동사의 하위범주화 정보, 첨어 유형정보, 의미정보가 핵심적인 언어 지식으로 이용된다. 모빌 구조에 의한 구문분석은 국부 구조를 단순화함으로써 구문적 중의성을 최소화하며, 의미정보는 주어진 술어의 논항적 자격을 검증하는 기준으로 작용하여 구문적 중의성을 감소시키고 정확한 분석을 가능하게 한다.

  • PDF

한영 자동 번역을 위한 한국어 구문 분석 전처리 (Pre-Processing of Korean Syntactic Analyzer for Korean to English MT)

  • 김영길;양성일;서영애;김창현;홍문표;최승권
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (2)
    • /
    • pp.175-177
    • /
    • 2001
  • 형태소 해석 결과 생성되는 형태소 옅은 구문 분석을 수행하기에는 적절하지 않은 구문 단위로 구성되어 있는 경우가 많으며 이로 인해 구문 분석기가 불필요한 연산을 수행하여 과도한 구문 트리를 생성하는 원인이 된다. 따라서 본 논문에서는 한영 자동 번역의 한국어 구문 분석기 성능 향상 및 자연스러운 대역문 생성을 위하여 시간 부사구와 명사구에 대한 구묶음을 위한 구문 분석 전처리 방법을 제안하며 이를 위한 각 구 단위의 대역 패턴을 정의한다. 방송자막 및 매뉴얼 문장을 대상으로 실험한 결과, 각 문장 구문 단위를 평균적으로 26% 정도 감소시킴으로써 불필요한 파스 트리의 생성을 배제하여 구문 분석기의 성능을 향상시킬 수 있었다.

  • PDF

한국어 의존 구문 분석의 분석 단위에 관한 실험적 연구 (Empirical Research on Segmentation Method for Korean Dependency Parsing)

  • 이진우;조혜미;박수연;신효필
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.427-432
    • /
    • 2021
  • 현재 한국어 의존 구문 분석의 표준은 어절 단위로 구문 분석을 수행하는 것이다. 그러나 의존 구문 분석의 분석 단위(어절, 형태소)에 대해서는 현재까지 심도 있는 비교 연구가 진행된 바 없다. 본 연구에서는 의존 구문 분석의 분석 단위가 자연어 처리 분야의 성능에 유의미한 영향을 끼침을 실험적으로 규명한다. STEP 2000과 모두의 말뭉치를 기반으로 구축한 형태소 단위 의존 구문 분석 말뭉치를 사용하여, 의존 구문 분석기 모델 및 의존 트리를 입력으로 활용하는 문장 의미 유사도 분석(STS) 및 관계 추출(RE) 모델을 학습하였다. 그 결과, KMDP가 기존 어절 단위 구문 분석과 비교하여 의존 구문 분석기의 성능과 응용 분야(STS, RE)의 성능이 모두 유의미하게 향상됨을 확인하였다. 이로써 형태소 단위 의존 구문 분석이 한국어 문법을 표현하는 능력이 우수하며, 문법과 의미를 연결하는 인터페이스로써 높은 활용 가치가 있음을 입증한다.

  • PDF

규칙에 기반한 한국어 부분 구문분석기의 구현 (Implementing Korean Partial Parser based on Rules)

  • 이공주;김재훈
    • 정보처리학회논문지B
    • /
    • 제10B권4호
    • /
    • pp.389-396
    • /
    • 2003
  • 본 논문에서는 문법검사기나 기계번역과 같은 실제 응용 시스템을 위한 한국어 부분 구문분석의 처리 대상을 정의하고, 규칙에 기반한 한국어 부분 구문분석기의 구현에 대해서 논의한다. 부분 구문분석기는 기본적으로 여러 개의 형태소나 단어가 구문적으로 하나의 구조에 속한 경우 이를 하나의 덩어리로 묶어주는 역할을 수행하며, 동시에 부가적인 작업을 수행할 수 있다. 또한 부분 구문분석기는 다양한 형태로 표현된 부분 구조를 표준 형태소 구조로 바꾸어 줌으로써, 상위 모듈의 처리에서 그 결과를 용이하게 사용할 수 있도록 한다. 본 논문에서는 한국어 부분 구문분석을 위해서 수동으로 작성된 140여 개의 규칙을 이용하였으며, 각 규칙은 일반적인 규칙과 마찬가지로 조건부와 행위부로 구성되었다. 부분 구문분석의 효율성을 관찰하기 위해서 일반적인 구문분석과 부분 구문분석을 포함한 구문분석을 비교하였다. 실험을 통해서 전자가 후자에 비해 약 두 배의 레코드 수가 요구됨을 알 수 있었다.

LR 구문분석 기법을 이용한 음성 계산기 (Voice Calculator using LR Parsing Technique)

  • 유형근;이형준;이강성;김순협
    • 한국음향학회지
    • /
    • 제12권6호
    • /
    • pp.70-76
    • /
    • 1993
  • 본 논문은 음성만을 이용하여 계산할 수 있도록 하는 dam성 계산기 구현을 위한 기술에 관한 연구이다. 일정한 형식을 갖는 언어에 의하여 발생할 수 있는 다양한 형태의 구문을 언어 문법적 규칙을 기초로 해석하는 기능은 단독어 인식에서 문장인식으로 넘어가는 과정에서 필수적인 요소이다. 음성 계산기에 HMM과 LR 구문분석 기법을 적용하여 입력된 문장을 분석하고 잘못 인식된 단어를 문장에 맞도록 하였다. 구문분석하는 중에 수식의 의미도 해석하여 계산 결과를 출력해 내도록 하였다. 구문 분석을 사용하지 않은 방법에 비해서 잘못 인식할 가능성을 크게 줄였다.

  • PDF

VHDL 구문 분석기 개발

  • 박성범;장영조;이철동
    • ETRI Journal
    • /
    • 제11권1호
    • /
    • pp.97-108
    • /
    • 1989
  • 본 논문은 VHDL(Very High Speed IC Hardware Description Language)로 기술(description)한 입력을 받아 구문의 정확성을 검사하기 위한 구문 분석기 개발에 관한 것이다. 본 연구에서 채택한 VHDL 버젼은 1987년 12월 미국의 IEEE에서 표준 하드웨어 기술 언어로 공표한 VHDL 1076버젼을 대상으로 하고 있다. 현재는 입력이 구문과 일치하는가를 검사하여 맞지 않는 경우 에러 메시지(error message)를 내보내며, 맞는 경우 구문이 정확히 기술되었음을 사용자에게 통보한다. VHDL 구문 분석기는 향후 본 연구실에서 개발한 VHDL 시뮬레이터 및 합성기에서 front-end 툴로써 이용할 계획이며, VHDL 구문에 의한 기술을 통해 언어의 이해에도 이용할 수 있다. 프로그램은 SUN-3/160C 컴퓨터의 UNIX 4.2 BSD하에서 lex, yacc를 이용하여, C언어로 구현되었다.

  • PDF

구문분석기의 어휘확장 (Lexical Expansion of Sentence Parsers)

  • 김민찬;김곤;배재학
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2005년도 춘계학술발표대회
    • /
    • pp.755-758
    • /
    • 2005
  • 본 논문에서는 구문분석기의 어휘확장을 통해 구문분석의 성공률을 높이고자 하였다. 구문분석은 문장내 구성성분들이 가지는 통사적인 관련성을 파악하는 작업이다. 구문분석 실패의 가장 빈번한 원인 중의 하나는 미등록 어휘의 출현이다. 결여된 어휘문제를 해결하는 것은 구문분석의 성공률을 높이고, 원문이해 시스템을 보다 더 견고하게 하는데 관건으로 작용한다. 이를 위하여, 본 논문에서는 구분분석기 LGPI+ 의 어휘 사전에 존재하지 않는 단어들을 또 다른 어휘자원인 WordNet을 이용하여 해결하고자 하였다. 구체적으로는, (1) 미등록 어휘를 WordNet에서 찾고, (2) 그 유의어 정보를 파악하여, (3) LGPI+ 어휘사전에 추가한다. 실험을 통하여 구문분석의 실패를 해결하고, 정확도와 성공률을 높일 수 있음을 확인하였다.

  • PDF