• 제목/요약/키워드: 구구조 구문분석

검색결과 17건 처리시간 0.02초

Multi-task sequence-to-sequence learning을 이용한 한국어 형태소 분석과 구구조 구문 분석 (Korean morphological analysis and phrase structure parsing using multi-task sequence-to-sequence learning)

  • 황현선;이창기
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.103-107
    • /
    • 2017
  • 한국어 형태소 분석 및 구구조 구문 분석은 한국어 자연어처리에서 난이도가 높은 작업들로서 최근에는 해당 문제들을 출력열 생성 문제로 바꾸어 sequence-to-sequence 모델을 이용한 end-to-end 방식의 접근법들이 연구되었다. 한국어 형태소 분석 및 구구조 구문 분석을 출력열 생성 문제로 바꿀 시 해당 출력 결과는 하나의 열로서 합쳐질 수가 있다. 본 논문에서는 sequence-to-sequence 모델을 이용하여 한국어 형태소 분석 및 구구조 구문 분석을 동시에 처리하는 모델을 제안한다. 실험 결과 한국어 형태소 분석과 구구조 구문 분석을 동시에 처리할 시 형태소 분석이 구구조 구문 분석에 영향을 주는 것을 확인 하였으며, 구구조 구문 분석 또한 형태소 분석에 영향을 주어 서로 영향을 줄 수 있음을 확인하였다.

  • PDF

Multi-task sequence-to-sequence learning을 이용한 한국어 형태소 분석과 구구조 구문 분석 (Korean morphological analysis and phrase structure parsing using multi-task sequence-to-sequence learning)

  • 황현선;이창기
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.103-107
    • /
    • 2017
  • 한국어 형태소 분석 및 구구조 구문 분석은 한국어 자연어처리에서 난이도가 높은 작업들로서 최근에는 해당 문제들을 출력열 생성 문제로 바꾸어 sequence-to-sequence 모델을 이용한 end-to-end 방식의 접근법들이 연구되었다. 한국어 형태소 분석 및 구구조 구문 분석을 출력열 생성 문제로 바꿀 시 해당 출력 결과는 하나의 열로서 합쳐질 수가 있다. 본 논문에서는 sequence-to-sequence 모델을 이용하여 한국어 형태소 분석 및 구구조 구문 분석을 동시에 처리하는 모델을 제안한다. 실험 결과 한국어 형태소 분석과 구구조 구문 분석을 동시에 처리할 시 형태소 분석이 구구조 구문 분석에 영향을 주는 것을 확인 하였으며, 구구조 구문 분석 또한 형태소 분석에 영향을 주어 서로 영향을 줄 수 있음을 확인하였다.

  • PDF

Sequence-to-sequence 모델을 이용한 한국어 구구조 구문 분석 (Korean phrase structure parsing using sequence-to-sequence learning)

  • 황현선;이창기
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회
    • /
    • pp.20-24
    • /
    • 2016
  • Sequence-to-sequence 모델은 입력열을 길이가 다른 출력열로 변환하는 모델로, 단일 신경망 구조만을 사용하는 End-to-end 방식의 모델이다. 본 논문에서는 Sequence-to-sequence 모델을 한국어 구구조 구문 분석에 적용한다. 이를 위해 구구조 구문 트리를 괄호와 구문 태그 및 어절로 이루어진 출력열의 형태로 만들고 어절들을 단일 기호 'XX'로 치환하여 출력 단어 사전의 수를 줄였다. 그리고 최근 기계번역의 성능을 높이기 위해 연구된 Attention mechanism과 Input-feeding을 적용하였다. 실험 결과, 세종말뭉치의 구구조 구문 분석 데이터에 대해 기존의 연구보다 높은 F1 89.03%의 성능을 보였다.

  • PDF

Sequence-to-sequence 모델을 이용한 한국어 구구조 구문 분석 (Korean phrase structure parsing using sequence-to-sequence learning)

  • 황현선;이창기
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.20-24
    • /
    • 2016
  • Sequence-to-sequence 모델은 입력열을 길이가 다른 출력열로 변환하는 모델로, 단일 신경망 구조만을 사용하는 End-to-end 방식의 모델이다. 본 논문에서는 Sequence-to-sequence 모델을 한국어 구구조 구문 분석에 적용한다. 이를 위해 구구조 구문 트리를 괄호와 구문 태그 및 어절로 이루어진 출력열의 형태로 만들고 어절들을 단일 기호 'XX'로 치환하여 출력 단어 사전의 수를 줄였다. 그리고 최근 기계번역의 성능을 높이기 위해 연구된 Attention mechanism과 Input-feeding을 적용하였다. 실험 결과, 세종말뭉치의 구구조 구문 분석 데이터에 대해 기존의 연구보다 높은 F1 89.03%의 성능을 보였다.

  • PDF

의존 구문분석을 위한 한국어 의존관계 가이드라인 및 엑소브레인 언어분석 말뭉치 (Korean Dependency Guidelines for Dependency Parsing and Exo-Brain Language Analysis Corpus)

  • 임준호;배용진;김현기;김윤정;이규철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.234-239
    • /
    • 2015
  • 2000년대 중반 세종 구구조 구문분석 말뭉치가 배포된 이후 의존 구문분석이 구문분석 연구의 주요 흐름으로 자리 잡으면서 많은 연구자들이 구구조 구문분석 말뭉치를 개별적으로 의존구조로 변환하여 구문분석 연구를 수행하였다. 하지만 한국어 문장의 의존구조 표현에 대한 논의가 부족하여 서로 다른 의존구조로 변환 후 구문분석을 연구함으로써 연구 효율성이 저하되는 문제가 발생하였다 본 연구에서는 이와 같은 문제에 접근하기 위하여 한국어 문장에 대한 의존관계 가이드라인을 제안한다. 그리고 제안하는 가이드라인을 기반으로 구축한 엑소브레인 언어분석 말뭉치(725 문장)에 대해 소개한다.

  • PDF

한국어 구문 분석을 위한 LTAG 시스템 (The LTAG System for Korean Syntactic Analysis)

  • 정의석;윤준태;김선호;송만석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1998년도 제10회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.230-235
    • /
    • 1998
  • 한국어 구문 분석에 적용되어 왔던 의존 문법이나 구구조 문법들은 각각의 장점들만큼 구문 중의성 해결의 어려움과 구구조 기술 한계성 등의 문제점들을 내포하고 있다. 따라서 본 연구는 LTAG(lexicalized tree adjoining grammar)을 기반으로 기존 문법들의 장점들을 수용하는 새로운 구구조 문법 시스템을 제안한다. 이는 기본 트리 프레임, 기본 트리 명시 규칙, 기본 연산 제약 규칙으로 구성되어 있으며 역방향 구문 분석 기법을 이용한다. 끝으로 실험을 통하여 제안하는 시스템의 한국어 구문 분석에 대한 타당성을 보이고자 한다.

  • PDF

2단계 방법을 사용한 빠른 한국어 TAG구문분석기 구현 (Fast Automatic Bracketing using 2 Level Methods for Korean)

  • 박정열
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (1)
    • /
    • pp.808-810
    • /
    • 2004
  • 이 논문에서는 2단계 방법을 사용한 한국어 TAG 구문분석기를 구현한다. 2단계 방법이란 우선 샬로우 파서를 통해 입력 문장을 평면적 구구조로 나눈 다음, 이들 구구조를 대상으로 중심 어-부가어를 적용하는 TAG 구문분석 방법을 적용한다 이런 방법을 통해 TAG파싱의 복잡도O(n$^{6}$)는 줄이지 못하지만 입력 문장의 길이를 줄여 빠른 시간 내에 파싱을 수행할 수 있다.

  • PDF

멀티헤드 어텐션과 포인터 네트워크 기반의 음절 단위 의존 구문 분석 (Multi-head Attention and Pointer Network Based Syllables Dependency Parser)

  • 김홍진;오신혁;김담린;김보은;김학수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.546-548
    • /
    • 2019
  • 구문 분석은 문장을 구성하는 어절들 사이의 관계를 파악하여 문장의 구조를 이해하는 기술이다. 구문 분석은 구구조 분석과 의존 구문 분석으로 나누어진다. 한국어처럼 어순이 자유로운 언어에는 의존 구문 분석이 더 적합하다. 의존 구문 분석은 문장을 구성하고 있는 어절 간의 의존 관계를 분석하는 작업으로, 각 어절의 지배소를 찾아내어 의존 관계를 분석한다. 본 논문에서는 멀티헤드 어텐션과 포인터 네트워크를 이용한 음절 단위 의존 구문 분석기를 제안하며 UAS 92.16%, LAS 89.71%의 성능을 보였다.

  • PDF

멀티헤드 어텐션과 포인터 네트워크를 이용한 한국어 의존 구문 분석 (Korean Dependency Parsing using Multi-head Attention and Pointer Network)

  • 박성식;오신혁;김홍진;김학수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.682-684
    • /
    • 2018
  • 구문 분석은 문장을 구성하는 단어들 간의 관계를 알아내 문장의 구조를 분석하는 작업이다. 구문 분석은 구구조 분석과 의존 구문 분석으로 나누어지는데 한국어처럼 어순이 자유로운 언어는 의존 구문 분석이 적합하다. 최근 구문 분석은 심층 신경망을 적용한 방식이 중점적으로 연구되고 있으며, 포인터 네트워크를 사용하는 모델이 가장 좋은 성능을 보였다. 그러나 포인터 네트워크만으로 구문적인 정보를 학습하기에는 한계가 있다. 본 논문에서는 멀티헤드 어텐션을 함께 사용하여 포인터 네트워크만을 사용 했을 때보다 높은 성능(UAS 92.85%, LAS 90.65%)을 보였다.

  • PDF

Linked Data를 위한 한국어 자연언어처리 플랫폼 (Korean Natural Language Processing Platform for Linked Data)

  • 함영균;임경태;;박정열;윤용운;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2012년도 제24회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.16-20
    • /
    • 2012
  • 본 논문에서는 한국어 자연언어처리를 위해 형태소분석기와 구구조 구문분석기와 의존구조 구문분석기를 통합한 하나의 플랫폼을 제공하고, 외국의 다양한 자연언어처리 도구들의 결과물과의 국제적 상호운용성 및 Linked Data를 위한 RDF 형태로의 변환 시스템을 제시한다.

  • PDF