• 제목/요약/키워드: 구문 분석

검색결과 834건 처리시간 0.02초

지배가능 경로 문맥을 이용한 의존 구문 분석의 수식 거리 모델 (Modification Distance Model using Headible Path Contexts for Korean Dependency Parsing)

  • 우연문;송영인;박소영;임해창
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제34권2호
    • /
    • pp.140-149
    • /
    • 2007
  • 본 논문에서는 한국어 의존 구문 분석을 위한 새로운 확률 모델을 제안한다. 한국어가 자유 어순 언어라 할지라도 지역적 어순은 존재하기 때문에 의존관계를 결정하기 위해 의존하는 두 어절인 의존소와 지배소 사이의 수식 거리가 유용하다는 것은 이미 많은 연구를 통해 밝혀졌다. 본 연구에서는 수식거리의 정확한 수식 거리의 추정을 위해 지배가능 경로 문맥을 이용한 수식 거리 확률 모델을 제안한다. 수식 거리를 위해 지배가능 경로를 고려함으로써, 긴 표층 문맥을 압축하는 효과를 가져다 준다. 이를 통해 구문 분석 정확률 향상과 원거리 의존 관계 향상을 보임을 설명한다. 실험 및 평가를 통해 제안하는 모델의 구문 분석 성능은 86.9%이며, 기존에 제안된 구문 분석 모델과 비교하여 높은 구문 분석 결과를 보이며, 특히 원거리 의존관계에 대하여 더욱 향상된 성능을 보인다.

두 개의 명사쌍으로 이루어진 복합명사사전을 이용한 연속된 명사열의 구묶음 (Chunking of Contiguous Nouns using Compound Noun Dictionary of Length Two)

  • 안광모;서영훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2009년도 제21회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.176-180
    • /
    • 2009
  • 구문분석에서 구문중의성(syntactic ambiguation)은 구문분석의 성능에 많은 영향을 미친다. 구문중의성을 일으키는 많은 요인들이 있지만, 특히 조사가 발달된 한국어의 구문분석에서 조사가 생략된 명사들은 구문중의성을 증가시키는 큰 요인 중 하나이다. 그렇기 때문에 조사가 없거나 생략된 연속된 명사열(contiguous nouns)의 길이가 길어질수록 구문중의성은 지수적으로 증가하게 된다. 따라서 현재까지의 연구에서는 이런 명사열들을 마치 하나의 명사처럼 구묶음을 하여 처리하는 경우가 많았다. 하지만, 조사가 없는 명사열들을 모두 하나의 명사구처럼 처리하여 구문분석을 수행할 경우, 주요 문장성분들이 잃어버리게 되는 경우가 발생한다. 따라서 본 논문에서는 하나의 명사처럼 쓰일 수 있는 조사가 없는 연속된 명사열을 복합명사구라고 정의하고, 두 개의 명사쌍으로 구축된 복합명사사전만을 이용하여 세 개 이상의 명사로 구성된 복합명사구들을 사전에 등록하지 않고도 복합명사구를 구묶음하는 방법에 대하여 기술한다. 실험을 위해 세종사전 150,546개의 예문에서 두 개 이상의 조사가 생략된 21,482개의 명사쌍을 추출하여 복합명사사전으로 변환하였으며, 총 6,316개의 사전 데이터가 구축되었다. 복합명사 구묶음 모듈은 조사가 생략된 명사열을 입력으로 받아서 우에서 좌로 검색하며 구묶음이 가능한 명사들을 연결하고, 연결된 명사들끼리 하나의 복합명사로 구묶음을 한다. 실험은 사전을 구축할 때 쓰였던 말뭉치와 사전을 구축할 때 쓰이지 않은 말뭉치를 이용하여 수행하였다. 결과는 사전을 구축할 때 쓰인 말뭉치를 이용하였을 때는 96.76%의 정확도를 보였으며, 사전을 구축할 때 쓰이지 않은 말뭉치를 이용하였을 경우는 12.23%의 정확도를 보였다.

  • PDF

한국어 사전과 동족보어 구문

  • 홍재성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1990년도 제2회 한글 및 한국어정보처리 학술대회
    • /
    • pp.89-94
    • /
    • 1990
  • 본 발표는 현대 한국어 어휘에 대한 공시적 시각 우위의 총체적 기술을 지향하는 대규모 언어사전의 동사항목 기술에서 고려되어야 할 통사.어휘 정보의 한 가지로 동족보어 구문의 문제를 다룬다. 한국어 동족보이 구문의 언어학적 분석을 바탕으로, (ㄱ) 기간 한국어 사전에서의 처리 현황을 검토하고; (ㄴ) 사전적 정보로서의 동족보어 구문의 속성을 좀 더 따져보며; (ㄷ) 동족보이 구문의 통사. 어휘 속성을 사전에 체계적으로 기록해야할 근거나, 이와 관련된 구체적 사전 기술의 방안을 제시해 본다.

  • PDF

한국어의 '보내-'와 영어의 send의 차이: 어휘 해체분석에 기반하여 (The Difference between the Korean Verb Ponay-'send' and the English Verb send: based on lexical decomposition)

  • 김문형
    • 한국언어정보학회:학술대회논문집
    • /
    • 한국언어정보학회 2008년도 정기학술대회
    • /
    • pp.125-137
    • /
    • 2008
  • 한국어에서는 '보내-'가 여격 구문만을 허용하는 반면에, 영어의 send는 이중목적어 구문과 여격 구문 모두를 허용한다. 이런 비 대칭성은 어휘 해체 이론에 기반하여 볼 때, 영어에서는 send가 이중 목적어 구문에서 CAUSE와 전치사 $P_{HAVE}$로 분해되는 동사와 여격 구문에서 CAUSE와 $P_{LOC}$로 분해되는 동사가 존재하지만, 한국어에서는 '보내-'가 CAUSE와 $P_{LOC}$로만 분해되는 동사만 존재하기 때문에 나타나는 현상이다. 이는 한국어의 '보내-'가 '주-'와 결합할 때는 이중 목적어 구문을 허용하는 것으로부터 알 수 있다. '주-'는 $P_{HAVE}$를 갖는 동사와 $P_{LOC}$를 갖는 동사로 나누어지는데, $P_{HAVE}$로 나누어지는 '주-'가 '보내-'의 이중목적어 구문을 허용해 주는 것으로 본다. '주-'는 '보내-' 이외에도 사역 동사들과 수여 동사들의 이중 목적어 구문의 형성을 돕는다.

  • PDF

패턴-액션 규칙을 이용한 한국어 구문 분석 (Syntax Analysis of Korean Using Pattern-Action Rules)

  • 나동열
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1992년도 제4회 한글 및 한국어정보처리 학술대회
    • /
    • pp.131-140
    • /
    • 1992
  • 전문가 시스템은 인공지능 분야에서 가장 성공적인 사례로 꼽히고 있다. 본 논문에서는 전문가 시스템에서 채용하고 있는 핵심기술인 패턴-액션 규칙이 자연어 구문 분석 작업에도 성공적으로 적용될 수 있음을 보이고자 한다. 자연어의 문법 규칙을 전문가 시스템의 생성 규칙 형태로 표현하고, 전문가 시스템의 추론 엔진에서 이용하는 알고리즘(특히 전향 추론 방식)을 이용하여 구문 분석을 진행하도록 한다. 이 방법이 부분 자유 어순과 중심어 후행과 같은 특징을 가진 한국어의 분석에도 적용될 수 있음을 보였다.

  • PDF

한국어 질의응답시스템에서 구문정보에 기반한 질의분석 (Question Analysis based Syntactic Information in Korean Question Answering System)

  • 신승은;서영훈
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.931-933
    • /
    • 2004
  • 본 논문에서는 한국어 질의응답시스템에서 정확한 정답추출을 위한 구문 정보에 기반한 질의분석을 제안한다. 질의분석은 세부 정답 유형 결정, 세분화된 키워드 추출을 통해 정확한 정답추출을 목적으로 한다. 술어 유형 정보를 이용하여 대분류 수준의 정답 유형으로 질의분석을 수행하고. 구문 구조 정보를 이용하여 중요 키워드와 일반 키워드를 추출한다 마지막으로 정답 유형 자질 명사를 이용하여 세부 정답 유형을 결정한다. 실험을 통해 세부 정답 유형 결정에서 정확률 59%, 세분화된 키워드 추출에서 정확을 66%를 보였다.

  • PDF

Stacked Bidirectional LSTM-CRFs를 이용한 한국어 의미역 결정 (Korean Semantic Role Labeling using Stacked Bidirectional LSTM-CRFs)

  • 배장성;이창기
    • 정보과학회 논문지
    • /
    • 제44권1호
    • /
    • pp.36-43
    • /
    • 2017
  • 의미역 결정 연구에 있어 구문 분석 정보는 술어-논항 사이의 의존 관계를 포함하고 있기 때문에 의미역 결정 성능 향상에 큰 도움이 된다. 그러나 의미역 결정 이전에 구문 분석을 수행해야 하는 비용(overhead)이 발생하게 되고, 구문 분석 단계에서 발생하는 오류를 그대로 답습하는 단점이 있다. 이러한 문제점을 해결하기 위해 본 논문에서는 구문 분석 정보를 제외한 형태소 분석 정보만을 사용하는 End-to-end SRL 방식의 한국어 의미역 결정 시스템을 제안하고, 순차 데이터 모델링에 적합한 LSTM RNN을 확장한 Stacked Bidirectional LSTM-CRFs 모델을 적용해 구문 분석 정보 없이 기존 연구보다 더 높은 성능을 얻을 수 있음을 보인다.

웹기반 정보검색을 위한 자연어 키워드 색인에 관한 연구 (A Study on Natural Language Keyword Indexing for Web-based Information Retrieval)

  • 윤성희
    • 한국컴퓨터산업학회논문지
    • /
    • 제4권12호
    • /
    • pp.1103-1111
    • /
    • 2003
  • 정보검색의 방법으로 단일 주제어를 키워드로 색인하여 검색하는 방식이 널리 사용되어 왔으나 문서의 내용을 정확히 표현하기 어렵고 검색 결과의 문서 집합 또한 너무 커서 사용자의 만족도가 낮다. 본 논문에서는 자연언어 처리 기술인 구문 분석 모듈을 도입해 단어 이상의 단위인 구 단위를 색인과 검색의 단위로 삼는 구 단위 색인 및 검색 기법을 사용을 제안한다. 웹 문서들 자체가 갖는 다양한 오류들로 인해 현실적으로 충분히 만족할 만할 우수한 성능의 구문 분석 모듈이 구현되기는 어려우므로 상향식 구문 분석 모듈을 구현하여 완전한 구문 분석 결과를 얻지 못하는 많은 문장에 대해서도 구 단위 색인이 가능하며 단일어 색인보다 식별력이 뛰어나 검색 성능이 향상되고 검색 과정의 부하도 줄일수 있다.

  • PDF

ELMo와 멀티헤드 어텐션을 이용한 한국어 의존 구문 분석 (Korean Dependency Parsing Using ELMo and Multi-head Attention)

  • 박성식;오신혁;김홍진;김시형;김학수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.8-12
    • /
    • 2018
  • 구문 분석이란 문장을 단어, 어절, 구 등의 구성 성분으로 분해하고 각각의 구조적 정보를 분석하여 문장의 구조를 알아내는 작업을 말한다. 최근 의존 구문 분석은 심층 신경망을 이용하는 방법이 활발히 연구되고 있다. 특히 포인터 네트워크를 사용하는 방법은 다른 심층 신경망보다 높은 성능을 보이고 있다. 그러나 포인터 네트워크의 사용만으로 의존 관계와 의존 관계명을 예측하는 것은 한계가 존재한다. 본 논문에서는 최근 사용하는 단어 표상 방법 별로 비교 실험을 진행하고 의존 구문 분석에서 GloVe의 성능이 가장 좋음을 보인다. 또한 언어 모델을 통한 단어 표상 방법인 ELMo와 멀티헤드 어텐션을 사용하여 포인터 네트워크만을 사용 했을 때보다 높은 성능(UAS 92.85%, LAS 90.65%)을 보였다.

  • PDF

구조적 중의성 해결을 위한 명사 수식 부사 연구 (An Analysis of Noun-modifying Adverbs for Structural Disambiguation)

  • 황선영;이공주
    • 인지과학
    • /
    • 제13권4호
    • /
    • pp.42-42
    • /
    • 2002
  • 명사 수식 부사는 서술어를 수식하는 다른 부사들과 달리, 명사를 수식하는 기능을 수행하는 부사이다. 이들 부사들은 부사의 전형적인 기능과 다른 기능을 보이기 때문에 구문 분석시 많은 오류를 일으킨다. 이 연구에서는 명사 수식 부사를 포함한 구문이 보이는 분석의 오류를 해결하기 위하여 명사 수식 부사를 분류하고 명사 수식 부사들의 사용 양태를 살펴서 구문 분석시의 처리 방안을 수립하였다. 또한 이러한 작업이 실제로 분석의 정확도를 높이는 데 기여할 수 있음을 증명하기 위해 명사 수식 부사 처리기를 구현하여 구문 분석기의 성능 향상을 실험하였다. 제안된 방법에 의해서 구문 분석의 정확도는 81.9%에서 83.6% 정도로 향상되었다.