• 제목/요약/키워드: 한국어 의존 파싱

검색결과 35건 처리시간 0.025초

자질 가중치 학습을 이용한 한국어 의존파싱 (Korean Dependency Parsing Based on Learning Weights of Features)

  • 김영태;나동열;임수종
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2010년도 제22회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.63-67
    • /
    • 2010
  • 본 논문에서는 자질(feature)의 가중치를 학습하여 이용하는 기계학습 기반 한국어 의존 파싱 기법을 소개한다. 이를 위하여 모든 가능한 의존관계에 대하여 각 의존관계마다 일정한 수의 자질을 생성한다. 자질마다 가중치에 의하여 그 중요도를 나타낸다. 자질의 가중치 값은 의존관계가 태깅된 구문구조 학습 말뭉치를 이용하여 학습한다. 이를 위해 본 논문에서는 간단한 가중치 기계학습 기법을 제시한다. 실험을 위한 언어 자원으로는 구구조부착 세종말뭉치를 변환하여 구한 의존관계 부착 말뭉치를 사용하였다. 실험 결과 약 86.5%의 정확률을 가지는 의존파싱이 가능함을 관찰하였다.

  • PDF

뉴럴 전이 기반 한국어 의존 파싱 & 의미역 결정 통합 모델 (Neural transition-based joint models for dependency Parsing and semantic role labeling of Korean)

  • 민진우;나승훈;신종훈;김영길
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.343-346
    • /
    • 2018
  • 기존의 의미역 결정은 먼저 구문 분석을 수행한 후에 해당 구문 분석 결과를 이용해 의미역 결정 테스크에 적용하는 파이프라인 방식으로 진행한다. 이러한 방식의 학습을 두 번 연이어 진행하기 때문에 시간이 오래 걸리고 또한 구문 파싱과 의미 파싱에 대해 서로 영향을 주지 못하는 단점이 존재하였다. 본 논문에서는 의존 파싱과 의미역 파싱을 동시에 진행하도록 전이 액션을 확장한 의존 파싱 & 의미역 결정 통합 모델을 제안하고 실험 결과, Korean Prop Bank 의미역 결정 데이터 셋에서 파이프라인 방식 전이 기반 방식을 사용한 모델보다 논항 인식 및 분류(AIC) 성능에서 F1 기준 0.14% 높은 결과을 보인다.

  • PDF

Bidirectional Stack Pointer Network를 이용한 한국어 의존 파싱 (Bidirectional Stack Pointer Network for Korean Dependency Parsing)

  • 홍승연;나승훈;신종훈;김영길
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.19-22
    • /
    • 2018
  • 본 논문에서는 기존 Stack Pointer Network의 의존 파싱 모델을 확장한 Bi-Stack Pointer Network를 제안한다. Stack Pointer Network는 기존의 Pointer Network에 내부 stack을 만들어 전체 문장을 읽어 dependency tree를 구성한다. stack은 tree의 깊이 우선 탐색을 통해 선정되고 Pointer Network는 stack의 top 단어(head)의 자식(child)을 선택한다. 제안한 모델은 기존의 Stack Pointer Network가 지배소(head)정보로 의존소(child)를 예측하는 부분에 Biaffine attention을 통해 의존소(child)에서 지배소(head)를 예측하는 방향을 추가하여 양방향 예측이 가능하게 한 모델이다. 실험 결과, 제안 Bi-Stack Pointer Network모델은 UAS 91.53%, LAS 90.93%의 성능을 보여주어 기존 최고 성능을 개선시켰다.

  • PDF

Easy-First Deep Biaffine Attention을 이용한 한국어 의존 파싱 (Easy-First Deep Biaffine Attention for Korean Dependency Parsing)

  • 홍승연;나승훈;신종훈;김영길
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.30-33
    • /
    • 2019
  • 기존의 그래프 기반 파서는 문장의 가능한 모든 트리를 찾고 가장 높은 점수를 갖는 트리를 취하는 방식이다. 하지만 점수를 계산하는데 있어서 노드 정보만을 사용하기 때문에 트리 구조의 특성을 반영하지 못하는 단점이 있다. 이를 위해 본 논문에서는 사전 학습된 모델에서 단어 간의 점수를 얻어 높은 점수를 가지는 단어를 미리 결정하고 결정된 의존성을 통해 부분 트리 만든다. 만들어진 부분 트리 정보를 사용하여 트리 구조의 특성을 반영할 수 있도록 하였다.

  • PDF

확률적 차트 파싱에 기반 한 한국어 의존 구조 분석기 (Korean Dependency Structure Analyzer based on Probabilistic Chart Parsing)

  • 은지현;정민우;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2005년도 제17회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.105-111
    • /
    • 2005
  • 정형적인 프로그래밍 언어에서는 언어를 기계적으로 해석하기 위해 입력의 구조적인 형태를 구축하는 파싱이 필수적인 과정으로 여겨진다. 기계에 기반 해서 개발된 프로그래밍 언어와 달리, 인간의 자유로운 의사소통을 위해 형성된 자연어는 특유의 다양성으로 인해 어휘, 구문, 의미 분석이 매우 어렵다. 반대로 자연어 구조 분석이 성공적으로 이루어지면 응용 시스템의 성능 향상에 상당한 기여를 할 것이라고 여겨지고, 이로 인해 끊임없이 자연어 처리, 특히 구문 분석에 많은 연구가 이루어지고 있다. 본 논문에서는 파싱에 사용되는 문법 전체를 말뭉치로부터 자동 구축하여 영역별 이식성 및 문법의 효율성을 도모했다. 또한 확률적 차트 파싱 기법과 immediate-head 파싱 모델을 적용하여 기존 파싱 시스템의 성능 향상을 시도했다. 세종 말뭉치를 이용한 파서의 성능은 각각 LP/LR 78.98%/79.55%로 나타났다.

  • PDF

Dual Decomposition을 이용한 전이기반 및 그래프 기반 의존 파서 통합 모델 (Integrating Transition-based and Graph-based Dependency Parsers using Dual Decomposition)

  • 민진우;나승훈;신종훈;김영길
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.25-29
    • /
    • 2019
  • 딥러닝을 이용한 한국어 의존 파싱은 전이 기반 방식과 그래프 기반 방식으로 나뉘어 연구되어 왔다. 전이 기반 방식은 입력 버퍼와 스택으로부터 자질을 추출하여 모델을 통해 액션을 결정하고 액션에 따라 파스트리를 생성해 나가는 상향식(Botton-Up)의 지역적 모델이고 그래프 기반 방식은 문장 내의 모든 단어에 대해 지배소, 의존소가 될 수 있는 점수를 딥러닝 모델을 통해 점수화하여 트리를 생성하는 전역적 모델이다. 본 논문에서는 Dual Decomposition을 이용하여 하이브리드 방식으로 전이 기반 파서와 그래프 기반 파서를 결합하는 방법을 제안하고 BERT 언어 모델을 반영하여 세종 데이터 셋에서 UAS 94.47%, LAS 92.58% 그리고 SPMRL '14 데이터 셋에서 UAS 94.74%, UAS 94.20%의 성능을 보여 기존 그래프 기반 파서의 성능을 더욱 개선하였다.

  • PDF

의존 경로와 음절단위 의존 관계명 분포 기반의 Bidirectional LSTM CRFs를 이용한 한국어 의존 관계명 레이블링 (Korean Dependency Relation Labeling Using Bidirectional LSTM CRFs Based on the Dependency Path and the Dependency Relation Label Distribution of Syllables)

  • 안재현;이호경;고영중
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회
    • /
    • pp.14-19
    • /
    • 2016
  • 본 논문은 문장에서의 어절 간 의존관계가 성립될 때 의존소와 지배소가 어떠한 관계를 가지는지 의존 관계명을 부착하는 모델을 제안한다. 국내에서 한국어 의존구문분석에 관한 연구가 활발히 진행되고 있지만 의존 관계만을 결과로 제시하고 의존 관계명을 제공하지 않는 경우가 많았다. 따라서 본 논문에서는 의존경로(Dependency Path)와 음절의 의존 관계명 분포를 반영하는 음절 임베딩를 이용한 의존 관계명 부착모델을 제안한다. 문장에서 나올 수 있는 최적의 입력 열인 의존 경로(Dependency Path)를 순차 레이블링에서 좋은 성능을 나타내고 있는 bidirectional LSTM-CRFs의 입력 값으로 사용하여 의존 관계명을 결정한다. 제안된 기법은 자질에 대한 많은 노력 없이 의존 경로에 따라 어절 및 음절 단어표상(word embedding)만을 사용하여 순차적으로 의존 관계명을 부착한다. 의존 경로를 사용하지 않고 전체 문장의 어절 순서를 바탕으로 자질을 추출하여 CRFs로 분석한 기존 모델보다 의존 경로를 사용했을 때 4.1%p의 성능향상을 얻었으며, 의존 관계명 분포를 반영하는 음절 임베딩을 사용한 bidirectional LSTM-CRFs는 의존 관계명 부착에 최고의 성능인 96.01%(5.21%p 개선)를 내었다.

  • PDF

확률적 CFG 파싱을 활용한 한국어 복합명사 구조 분석의 중의성 해소 (Disambiguation on the Analysis of Korean Complex Nominals, Using Probabilistic CFG Parsing)

  • 김동성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2011년도 제23회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.61-66
    • /
    • 2011
  • 본 논문은 한국어 복합명사 구조의 분석을 목적으로 한다. 연구는 이론 언어학뿐만이 아니라 정보처리, 정보검색과 같은 언어의 전산적 처리에서도 중요한다. 복합명사 구조는 크게 외심구조와 내심구조로 나뉘며 내심구조의 경우에 좌분지나 우분지 구조로 분석이 되어야 하는 중의성이 있다. 기존의 Lauer 모델은 사전적 정보에서 발견되는 확률 정보를 구조 정보에 연결하기 위한 모델로 의존모델과 인접모델을 제시하였다. 본 연구에서는 구조에 기반을 둔 확률정보를 결합하기 위한 확률적 CFG 파싱 방법을 활용하고자 하였다. 이를 위해서 실제 코퍼스상에서 발견되는 복합명사 패턴을 대상으로 구조적 분석을 화자 직관을 통해서 진행하고, 이를 다시 Lauer 모델과 확률적 CFG 파싱 방법 응용과 비교해 보았다. 결과적으로 화자 직관에 가장 일치한 예측을 하였으며, 구조에 대한 정보 해석이 가능하였다.

  • PDF

한국어 구문분석 시스템 BCD-KL-Parser의 개발 (Development of Broad-Coverage Korean Dependency Parser BCD-KL-Parser)

  • 김민호;김성태;권혁철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.3-7
    • /
    • 2018
  • 본 연구진은 모든 형태소 분석 후보에 적절한 의존관계를 부여하여 구문분석 트리 후보를 순위화하여 제시하는 한국어 구문 분석 시스템 BCD-KL-Parser를 개발하고 있다. 이 시스템의 최종목표는 형태소 분석후보와 구문분석 트리 후보를 줄여나감으로써, 구문분석의 정확도와 실행 속도를 높이는 것이다. 본 논문에서 소개하는 BCD-KL-Parser에서는 형태적 중의성 해소규칙을 정의하여 형태소 분석후보의 수를 줄이고, 용언의 하위범주화 정보와 선택제약 정보 그리고 의존관계 제약규칙을 정의하여 구문분석 트리 후보의 수를 최소화할 수 있었다. 그 결과 '21세기 세종계획 구문분석 말뭉치'에서 무작위로 추출한 2,167문장에 대하여 UAS 92.27%를 달성할 수 있었다.

  • PDF

의존 경로와 음절단위 의존 관계명 분포 기반의 Bidirectional LSTM CRFs를 이용한 한국어 의존 관계명 레이블링 (Korean Dependency Relation Labeling Using Bidirectional LSTM CRFs Based on the Dependency Path and the Dependency Relation Label Distribution of Syllables)

  • 안재현;이호경;고영중
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.14-19
    • /
    • 2016
  • 본 논문은 문장에서의 어절 간 의존관계가 성립될 때 의존소와 지배소가 어떠한 관계를 가지는지 의존 관계명을 부착하는 모델을 제안한다. 국내에서 한국어 의존구문분석에 관한 연구가 활발히 진행되고 있지만 의존 관계만을 결과로 제시하고 의존 관계명을 제공하지 않는 경우가 많았다. 따라서 본 논문에서는 의존 경로(Dependency Path)와 음절의 의존 관계명 분포를 반영하는 음절 임베딩를 이용한 의존 관계명 부착 모델을 제안한다. 문장에서 나올 수 있는 최적의 입력 열인 의존 경로(Dependency Path)를 순차 레이블링에서 좋은 성능을 나타내고 있는 bidirectional LSTM-CRFs의 입력 값으로 사용하여 의존 관계명을 결정한다. 제안된 기법은 자질에 대한 많은 노력 없이 의존 경로에 따라 어절 및 음절 단어표상(word embedding)만을 사용하여 순차적으로 의존 관계명을 부착한다. 의존 경로를 사용하지 않고 전체 문장의 어절 순서를 바탕으로 자질을 추출하여 CRFs로 분석한 기존 모델보다 의존 경로를 사용했을 때 4.1%p의 성능향상을 얻었으며, 의존 관계명 분포를 반영하는 음절 임베딩을 사용한 bidirectional LSTM-CRFs는 의존 관계명 부착에 최고의 성능인 96.01%(5.21%p 개선)를 내었다.

  • PDF