• 제목/요약/키워드: 의존 파싱

검색결과 44건 처리시간 0.032초

어절 내부 의존관계를 고려한 확률 의존 문법 학습 (Probabilistic Dependency Grammar Induction using Internal Dependency Relation in Words)

  • 최선화;박혁로
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2001년도 추계학술발표논문집 (상)
    • /
    • pp.507-510
    • /
    • 2001
  • 본 논문에서는 코퍼스를 이용한 확률 의존문법 자동 생성 기술을 다룬다. 특히 의존 문법 생성을 위해 확률 재추정 알고리즘을 의존문법생성에 맞도록 변형하여 학습하였으며 정확한 문법 생성 및 회귀데이터(Data Sparseness)문제 해결을 위해서 구성요소의 대표 지배소들 간의 의존관계 만을 학습했던 기존 연구와는 달리 구성요소 내부의 의존관계까지 학습하는 방법을 제안한다. KAIST 의 트리 부착 코퍼스 31,086 문장에서 추출한 25,000 문장의 Tagged Corpus 을 가지고 한국어 확률 의존 문법 학습을 시도 하였다. 그 결과 초기문법을 10.97% 에서 23.73% 까지 줄인 2,349 개의 정확한 문법을 얻을 수 있었다. 문법의 정확성을 실험 하기 위해 350 개의 실험문장을 Parsing 한 결과 69.61%의 파싱 정확도를 보였다. 이로서 구성요소 내부의 의존관계 학습으로 얻어진 의존문법이 더 정확했으며, 회귀데이터 문제 또한 극복할 수 있음을 알 수 있었다.

  • PDF

의존 경로와 음절단위 의존 관계명 분포 기반의 Bidirectional LSTM CRFs를 이용한 한국어 의존 관계명 레이블링 (Korean Dependency Relation Labeling Using Bidirectional LSTM CRFs Based on the Dependency Path and the Dependency Relation Label Distribution of Syllables)

  • 안재현;이호경;고영중
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회
    • /
    • pp.14-19
    • /
    • 2016
  • 본 논문은 문장에서의 어절 간 의존관계가 성립될 때 의존소와 지배소가 어떠한 관계를 가지는지 의존 관계명을 부착하는 모델을 제안한다. 국내에서 한국어 의존구문분석에 관한 연구가 활발히 진행되고 있지만 의존 관계만을 결과로 제시하고 의존 관계명을 제공하지 않는 경우가 많았다. 따라서 본 논문에서는 의존경로(Dependency Path)와 음절의 의존 관계명 분포를 반영하는 음절 임베딩를 이용한 의존 관계명 부착모델을 제안한다. 문장에서 나올 수 있는 최적의 입력 열인 의존 경로(Dependency Path)를 순차 레이블링에서 좋은 성능을 나타내고 있는 bidirectional LSTM-CRFs의 입력 값으로 사용하여 의존 관계명을 결정한다. 제안된 기법은 자질에 대한 많은 노력 없이 의존 경로에 따라 어절 및 음절 단어표상(word embedding)만을 사용하여 순차적으로 의존 관계명을 부착한다. 의존 경로를 사용하지 않고 전체 문장의 어절 순서를 바탕으로 자질을 추출하여 CRFs로 분석한 기존 모델보다 의존 경로를 사용했을 때 4.1%p의 성능향상을 얻었으며, 의존 관계명 분포를 반영하는 음절 임베딩을 사용한 bidirectional LSTM-CRFs는 의존 관계명 부착에 최고의 성능인 96.01%(5.21%p 개선)를 내었다.

  • PDF

의존 경로와 음절단위 의존 관계명 분포 기반의 Bidirectional LSTM CRFs를 이용한 한국어 의존 관계명 레이블링 (Korean Dependency Relation Labeling Using Bidirectional LSTM CRFs Based on the Dependency Path and the Dependency Relation Label Distribution of Syllables)

  • 안재현;이호경;고영중
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.14-19
    • /
    • 2016
  • 본 논문은 문장에서의 어절 간 의존관계가 성립될 때 의존소와 지배소가 어떠한 관계를 가지는지 의존 관계명을 부착하는 모델을 제안한다. 국내에서 한국어 의존구문분석에 관한 연구가 활발히 진행되고 있지만 의존 관계만을 결과로 제시하고 의존 관계명을 제공하지 않는 경우가 많았다. 따라서 본 논문에서는 의존 경로(Dependency Path)와 음절의 의존 관계명 분포를 반영하는 음절 임베딩를 이용한 의존 관계명 부착 모델을 제안한다. 문장에서 나올 수 있는 최적의 입력 열인 의존 경로(Dependency Path)를 순차 레이블링에서 좋은 성능을 나타내고 있는 bidirectional LSTM-CRFs의 입력 값으로 사용하여 의존 관계명을 결정한다. 제안된 기법은 자질에 대한 많은 노력 없이 의존 경로에 따라 어절 및 음절 단어표상(word embedding)만을 사용하여 순차적으로 의존 관계명을 부착한다. 의존 경로를 사용하지 않고 전체 문장의 어절 순서를 바탕으로 자질을 추출하여 CRFs로 분석한 기존 모델보다 의존 경로를 사용했을 때 4.1%p의 성능향상을 얻었으며, 의존 관계명 분포를 반영하는 음절 임베딩을 사용한 bidirectional LSTM-CRFs는 의존 관계명 부착에 최고의 성능인 96.01%(5.21%p 개선)를 내었다.

  • PDF

중한번역에서 구 묶음을 이용한 파싱 효율 개선 (Improving Parsing Efficiency Using Chunking in Chinese-Korean Machine Translation)

  • 양재형;심광섭
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권8호
    • /
    • pp.1083-1091
    • /
    • 2004
  • 본 논문은 기계번역 시스템에서 파싱의 전처리 단계로 도입되는 구 묶음 시스템을 제안한다. 구 묶음 모듈은 구 묶음의 결과로 얻어지는 의존관계 제약을 통하여 분석 시스템의 성능향상에 기여할 수 있다. 중국어를 위한 구 묶음 시스템을 변형 기반 학습 기법에 근거하여 구현하며, 의존관계를 효과적으로 파서에 넘겨줄 수 있는 인터페이스를 고안한다. 구현된 모듈을 중한 기계번역 시스템에 통합하고, 중국 관련 웹사이트로부터 수집한 말뭉치를 이용한 실험을 통해 구 묶음의 도입이 기계번역에서 분석시스템의 성능 향상에 기여할 수 있음을 보인다.

하위범주화에 의한 한국어 파싱 설계 (A Design of Korean Language Parsing based on Subcategorization)

  • 이호석
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2008년도 한국컴퓨터종합학술대회논문집 Vol.35 No.1 (C)
    • /
    • pp.242-247
    • /
    • 2008
  • 본 논문은 하위범주화에 의한 한국어 파싱의 설계를 논의한다. 우선, 기계 번역에 중요한 영향을 끼치는 한국어 문법구성 요소인 통사 범주, 조사, 어미, 통사적 접사, 의존 명사 등을 논의하고 하위 범주화와 표현 패턴을 논의한다. 다음에 간단한 한국어 파서의 기본 골격을 제시한다. 첫 번째 과정은 입력 단계로서 문장을 스캐닝(scanning) 하고 관사, 명사, 수사, 통사적 접사, 조사, 의존 명사, 어미활용, 형용사, 부사, 조동사 들을 처리한다. 두 번째 과정에서는 하위범주화 패턴과 표현 패턴을 처리한다. 세 번째 단계에서는 절을 처리하고, 네 번째 단계에서는 SEA(Sentence Ending+Auxiliary)를 처리한다.

  • PDF

한국어 파서에서의 지역 의존관계의 이용 (Using Local Dependency for Dependency Parser of Korean)

  • 류법모;이종혁;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1996년도 제8회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.464-468
    • /
    • 1996
  • 본 논문에서는 한국어 의존관계 파서의 정확성 및 효율성을 높이기 위해 구구조 내의 지역적 수식 특성을 반영할 수 있는 지역 의존관계의 사용을 제안한다. 의존문법은 자유어순 언어를 잘 설명할 수 있는 장점이 있지만, 전체 문장구조에 관한 의존제약이 너무 미약하기 때문에 단순히 어절간 구문 의존 제약만으로는 원하지 않는 분석 결과가 너무 많이 생성된다. 그러나 자유어순 언어라 하더라도 지역적인 구구조에는 일정한 어순 제약이 존재한다. 명사구, 용언구 등과 같은 구구조를 분석해 보면 수식어의 지배소는 반드시 그 구 안에 있다. 이러한 구조 정보에 기반을 둔 지역 의존관계 규칙을 이용하면 하나의 의존소에 대해서 지배소로 사용될 수 있는 어절의 범위를 제한하여, 원하지 않는 분석 결과를 줄일 수 있다. 한국어는 기본 문장 구조가 그대로 사용되기보다는 하나 이상의 수의 요소들이 첨가되어 보다 긴 문장 구조로 사용되는 경우가 많기 때문에, 본 논문에서 제안한 방법은 시스템 전체의 성능 및 효율을 크게 향상시킬 수 있다. 실험에서는 파싱의 첫 번째 단계에서 지역 의존관계 규칙을 사용하였을 경우 사용하지 않았을 때에 비해서 의존관계의 수가 평균 69% 정도로 줄어들었다.

  • PDF

한국어 구문분석 시스템 BCD-KL-Parser의 개발 (Development of Broad-Coverage Korean Dependency Parser BCD-KL-Parser)

  • 김민호;김성태;권혁철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.3-7
    • /
    • 2018
  • 본 연구진은 모든 형태소 분석 후보에 적절한 의존관계를 부여하여 구문분석 트리 후보를 순위화하여 제시하는 한국어 구문 분석 시스템 BCD-KL-Parser를 개발하고 있다. 이 시스템의 최종목표는 형태소 분석후보와 구문분석 트리 후보를 줄여나감으로써, 구문분석의 정확도와 실행 속도를 높이는 것이다. 본 논문에서 소개하는 BCD-KL-Parser에서는 형태적 중의성 해소규칙을 정의하여 형태소 분석후보의 수를 줄이고, 용언의 하위범주화 정보와 선택제약 정보 그리고 의존관계 제약규칙을 정의하여 구문분석 트리 후보의 수를 최소화할 수 있었다. 그 결과 '21세기 세종계획 구문분석 말뭉치'에서 무작위로 추출한 2,167문장에 대하여 UAS 92.27%를 달성할 수 있었다.

  • PDF

LR 테크닉을 이용한 형태소 분석 (Morphological Processing with LR Techniques)

  • 이강혁
    • 인지과학
    • /
    • 제4권2호
    • /
    • pp.115-143
    • /
    • 1994
  • 본 논문은 LR 파싱기법을 이용한 확장된 두단계(two-level)형태소분석 모델을 제시한다.LA기법을 이용한 두단계 모델은 효율적 형태소분석 뿐만 아니라 Koskenniemi(1983)의 모델보다 형태론적 현상에 대한 보다 높은 기술성(descriptive adequacy)을 획득한다.이를 위해 두단계 모델은 자질기반의 문맥자유문법(feature-based CF grammar)에 근거한 독립적인 형태/통사모듈에 의해 확장된다.문맥자유문법에 근거한 단어문법(word grammar)을 채택함으로써 확장 모델은 하위사전의 중복현상을 피하면서 비연속적 의존관계(discontinuous dependencies) 를 가지는 복합어 등을 처리할 수 있다.또한 파싱테이블에 명시된 LR 예측은 형태소분석기로 하여금 사전탐색시간을 줄일 수 있도록 도와준다.

한국어 의존 관계 분석과 자질 집합 분할을 이용한 기계학습의 성능 개선 (Analysis of Korean Language Parsing System and Speed Improvement of Machine Learning using Feature Module)

  • 김성진;옥철영
    • 전자공학회논문지
    • /
    • 제51권8호
    • /
    • pp.66-74
    • /
    • 2014
  • 최근에 한국어 의존 관계에 대한 파싱 시스템과 관련된 연구가 소프트웨어 공학자들이나 언어학자들에 의해 다양하게 연구되고 있으며, 시스템 구현은 주로 기계 학습이나 기호 주의를 사용하고 있다. 기계 학습을 사용한 방법은 한국어 문장 데이터가 매우 크기 때문에 시스템 특성상 매우 긴 학습시간을 가지며, 데이터 자체가 가지는 오류로 인하여 한정된 인식율을 가진다. 본 연구에서는 기계학습을 이용한 시스템에 대하여 학습 시간을 줄일 수 있도록 특징들을 자질 집합 모듈로 분할하여 처리하는 방법을 제안하고, 문장수와 반복횟수에 따른 인식율을 분석하였다. 설계된 시스템은 분리된 모듈과 이진 검색을 위한 정렬 기법이 사용되었다. 데이터는 세종 말뭉치로부터 추출한 후 정제된 36,090문장을 사용하였다. 학습 시간은 약 3시간으로 줄었으며, 인식율은 10,000 문장을 50회 학습하였을 때 84.54%로 가장 높았다. 모든 학습 문장(32,481)을 10회 학습하였을 때 인식율은 82.99%이다. 결과적으로 정제된 데이터를 이용하여 시스템이 안정화될 때까지 반복하는 것이 더 효율적이었다.

한국어 의존 파싱을 이용한 트리플 관계 추출 (Triplet Extraction using Korean Dependency Parsing Result)

  • 곽수정;김보겸;이재성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2013년도 제25회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.86-89
    • /
    • 2013
  • 자연언어 문서에서 지식 추출은 QA 시스템을 비롯한 여러 분야에서 필수적이다. 트리플은 가장 일반적인 지식 추출 형식으로 문장 내부의 지식 정보를 주어, 서술어, 목적어의 관계로 표현한다. 본 논문에서는 한국어 의존 파서로 문장을 분석하고, 그 결과에서 트리플을 추출하는 방법을 제안했다. 제안된 트리플 추출기는 21개 문장에서 추출된 78개의 트리플 정답 집합과, 64개의 준정답 집합에 대해서 각각 60.75%와 66.67%의 F-measure 성능을 보였다.

  • PDF