• 제목/요약/키워드: 부분구문분석

검색결과 94건 처리시간 0.02초

동적 오라클을 이용한 한국어 의존 구문분석 (Korean Dependency Parsing using Dynamic Oracle)

  • 이경호;이공주
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.87-91
    • /
    • 2017
  • 구문분석은 자연언어처리의 오랜 관심 분야로 다양한 접근방법과 알고리즘이 시도되어 계속 발전하고 있다. 하지만 기존의 접근방법은, 학습단계에서는 정답으로부터 추출된 이전 정보를 사용하고 평가 단계에서는 예측으로 이루어진 정보를 활용한다는 근본적인 차이가 있다. 이러한 차이를 극복하기 위한 다양한 시도가 있었고 그 중 동적 오라클 기법이 합리적인 시간 증가와 성능향상을 보였다. 본 연구에서는 이러한 동적 오라클 기법을 한국어 구문분석에 적용하였다. 동적 오라클 기법을 한국어에 적용할 때 고려해야하는 부분에 대해 탐구하고 실험을 통해 동적 오라클 기법을 한국어 구문분석에 적용하여 결과를 살펴보았다.

  • PDF

부분 구문 분석 결과에 기반한 두 단계 부분 의미 분석 시스템 (Two-Phase Shallow Semantic Parsing based on Partial Syntactic Parsing)

  • 박경미;문영성
    • 정보처리학회논문지B
    • /
    • 제17B권1호
    • /
    • pp.85-92
    • /
    • 2010
  • 부분 의미 분석 시스템은 문장의 구성 요소들이 술어와 갖는 관계를 분석하는 것으로 문장에서 술어의 주체, 객체, 도구 등을 나타내는 의미 논항을 확인하게 된다. 본 논문에서 개발한 부분 의미 분석 시스템은 두 단계로 구성되어 있는데, 먼저 부분 구문 분석 결과로부터 의미 논항의 경계를 찾는 의미 논항 확인 단계를 수행하고 다음으로 확인된 의미 논항에 적절한 의미역을 부착하는 의미역 할당 단계를 수행한다. 순차적인 두 단계 방법을 적용하는 것에 의해서, 학습 성능 저하의 주요한 원인인 클래스 분포의 불균형 문제를 완화할 수 있고, 각 단계에 적합한 자질을 선별하여 사용할 수 있다. 본 논문에서는 PropBank 말뭉치에 기반한 CoNLL-2004 shared task의 데이터 집합 및 평가 프로그램을 사용하여 각 단계가 시스템의 전체 성능에 기여하는 정도를 보인다.

OLAP 환경에서 스프레드시트와 피벗 테이블을 다루기 위한 SQL의 확장 (SQL Extensions for Handling Spreadsheets and PIVOT tables in OLAP Environment)

  • 신성현;김진호;문양세;김상욱
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2008년도 한국컴퓨터종합학술대회논문집 Vol.35 No.1 (C)
    • /
    • pp.21-25
    • /
    • 2008
  • 온라인 분석 처리(On-Line Analytical Processing: OLAP)은 데이터 웨어하우스로부터 다차원 데이터를 분석하거나 의사 결정을 위한 유용한 정보를 제공하고 있다. 데이터 분석을 위해, OLAP에서는 다차원 데이터를 표현한 스프레드시트(spreadsheet) 또는 피벗 테이블(PIVOT table)을 널리 사용하고 있다. 스프레드시트와 피벗 테이블은 서로 유사한 형태로써 분석의 기준이 되는 애트리뷰트들이 많은 구조이다. 사용자들은 흔히 사용되고 있는 SQL 구문을 이용하여 스프레드시트 또는 피벗 테이블에서 손쉬운 데이터 분석을 요구한다. 그러나, RDBMS에서 제공하는 SQL 구문의 사용으로, 이는 다차원 데이터를 효과적으로 분석할 수 없다. 그 이유는 SQL 구문이 다양한 데이터 분석의 목적으로 사용되거나, 요약된 집계 정보를 도출하는 데 한계가 있기 때문이다. 따라서, 본 연구에서는 SQL 구문을 확장하여 다차원 데이터를 표현한 스프레드시트를 손쉽게 조작하고, 요약된 집계를 계산하는 셀(cell) 구문을 제안한다. 이 방법은 스프레드시트와 피벗 테이블에서 행과 열이 교차하는 좌표(coordinate)를 이용하여, 특정 셀의 조작 및 선택한 부분/전체 영역에 대한 집계 정보를 계산하는 방법이다. 결과적으로, RDBMS에서 사용되는 SQL 구문이 친숙한 사용자들이 제안한 셀 구문을 이용하면, 다양한 관점에 따라 손쉽게 스프레드시트와 피벗 테이블을 다룰 수 있을 것으로 사료된다.

  • PDF

구문패턴과 순환 뜻풀이망을 이용한 동형이의어 분별 (Homonym disambiguation using syntactic pattern and recursive definition network)

  • 이왕우;최호섭;옥철영
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 봄 학술발표논문집 Vol.29 No.1 (B)
    • /
    • pp.457-459
    • /
    • 2002
  • 뜻풀이에서 추출한 의미 정보를 이용만 통계시인 방법의 기존 동형이의어 분별 시스템에는 불필요한 의미 정보들을 많이 가지고 있었다. 그리고 동형이의어간의 의미정보가 서로 교차하는 부분이 많아 확률적인 결정에 오류를 발생시켰다. 본 논문에서는 뜻풀이에서 구문패턴을 분석하여 보다 정제된 의미 정보를 추출하였고, 구문패턴에 속하는 어휘들의 하위어를 사전에서 자동 추출하여 부족한 의미 정보를 보완하였다. 또한, 구문패턴으로 분별할 수 없는 일부 동형이의어들은 순환 뜻풀이 망(RDN)을 이용하여 동형이의어를 분별하였다. 이러한 방법으로 동형이의어 분별을 통해 기존 연구보다 8%의 정확률 향상을 가져왔다.

  • PDF

최소자원 최대효과의 구문분석 (Maximally Efficient Syntactic Parsing with Minimal Resources)

  • 신효필
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.242-248
    • /
    • 1999
  • 이 논문은 지역적 동사구 분할에 바탕을 두고 서술어가 문말에 위치하는 언어에 특성에서 기인하는 속성을 반영하는 부분적 그러나 빠른 구문분석에 관해 논한다. 즉 완벽성 보다는 신속함 그리고 신뢰에 바탕을 둔 새로운 한국어 구문분석에 대해 논의한다. 기존의 문법이론 대신 한국어의 형태적 통사적 특성에 기인한, 성분들의 분할(partitions)에 의한 단위 (chunks) 분석방법을 제안한다. 근간은 동사구 장벽(VP-barrier) 알고리즘이며, 이 알고리즘은 한 문장안에서의 다양한 동사의 파생접사에 의해 형성되는 관형화, 명사화, 부사화 등의 파생구조와 내포된 동사구(인용문, 종속문 등)에 의해 형성되는 지역적 동사구내에서 그 성분들의 논리적인 분할을 구성하고 다시 그 다음 요소와 체계적으로 결합하는 관계로 확장하여 가능한 구조들을 생성한다. 다시 언어의존적인 발견적 규칙(heuristics)들을 점수화하여 가장 높은 점수의 단위구조를 적격한 구조로 선택한다. 이 방법은 하위범주화 및 의미정보를 사용하지 않는, 빠른 구문분석이 요구되는 시스템을 위해 고안되었으며, 집단적인 노력이 아닌 개인적인 노력 및 최소의 자원으로도 최대의 효과를 얻을 수 있다는데 그 의의가 있다.

  • PDF

전체 문장 분석에 기반한 한국어 문법 검사기 (A Korean Grammar Checker based on the Trees Resulted from a Full Parser)

  • 이공주;황선영;김지은
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권10호
    • /
    • pp.992-999
    • /
    • 2003
  • 문법 검사기는 문장의 문법 오류를 찾고 이에 대한 적절한 대안을 제시하는 것이다. 문법 오류를 찾기 위해서 문법 검사기는 전체 문장을 분석해야 하며 이는 많은 자원이 소요되는 작업이다. 이러한 이유로 대부분의 한국어 문법 검사기는 중의성이 없는 작은 부분에 대해서만 구문 분석을 수행하는 부분구문 분석기를 이용하고 있다. 본 논문의 구문 분석기는 문법 오류를 검사하기 위해서 전체 구문 분석기를 사용하였다. 이 방식은 여러 단어를 사이에 두고 떨어져 있는 두 단어간에 문법적 오류가 있을 경우에도 이를 찾아서 고칠 수 있다. 결과적으로 이 방식은 수행 성능을 저하시키는 대신, 문법 오류를 수정하는 정확률의 향상을 기대할 수 있다. 본 논문의 문법 검사기는 문법 오류를 찾고 수정하기 위해서 65개의규칙을 사용한다. 전체 구문 분석기를 사용하는 한국어 문법 검사기는 약 7백만 어절로 구성된 실험 코퍼스에 대해서 약 96.49%의 교정 정확률을 얻을 수 있었다.

온라인 학습을 이용한 한국어 의존구문분석 (Korean Dependency Parsing Using Online Learning)

  • 이용훈;이종혁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2010년도 한국컴퓨터종합학술대회논문집 Vol.37 No.1(C)
    • /
    • pp.299-304
    • /
    • 2010
  • 본 논문에서는 온라인 학습을 이용한 한국어 의존구문분석 방법을 제안한다. CoNLL-X에서 1위를 차지한 그래프 기반 의존구문분석 방법을 한국어에 맞게 변형하고, 한국어의 교착어적 특성을 고려해 한국어에 적합한 자질 집합을 제시하였다. 특히 의존트리의 에지(edge)를 단어와 단어간의 의존관계가 아닌 부분트리(partial tree)와 부분트리의 의존관계로 바라보기 위해 부분트리가 공유하고 있는 기능어 정보를 추가 자질로 사용하였다. 또한 한국어의 지배소 후위(head-final) 언어 특성과 투사성(projectivity)을 이용하여 Eisner(1996) 알고리즘을 사용하지 않고도 O($n^3$)의 CYK알고리즘을 사용할 수 있었고, 이를 이용해 최적의 전역해(global optimum)를 찾을 수 있었다. 각 자질을 위한 최적의 가중치 벡터는 온라인 학습방법 중 하나인 Collins(2002)의 averaged perceptron 알고리즘을 사용함으로써 빠르게 모델을 학습할 수 있었다. 제안 모델을 국어정보베이스(KIBS) 말뭉치에 적용한 결과 어절 단위 정확률 88.42%의 높은 성능을 얻을 수 있었다.

  • PDF

한국어 문법관계에 대한 부분구문 분석 (Shallow Parsing on Grammatical Relations in Korean Sentences)

  • 이성욱;서정연
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제32권10호
    • /
    • pp.984-989
    • /
    • 2005
  • 본 연구의 목적은 한국어 문장의 문법관계를 분석하는 데 있다. 주된 문제는 문장의 주어, 목적어, 부사어를 문장에서 찾아내는 것이다. 이 문제를 해결하기 위해서 한국어 구문 분석에서 발생하는 여러 중의성을 고려해야 한다. 우리는 문법관계의 중의성을 먼저 해결하고 그 다음에 주어진 명사구와 용언구의 문법관계 확률을 이용하여 용언구의 술어-논항 관계 중의성을 해소하는 통계적 방법을 제안한다. 제안된 방법은 어절간의 거리, 교차구조 금지, 일문일격의 원칙 둥의 한국어 언어 특성을 반영하였다. 용언구와 명사구 사이의 문법관계에 대한 확률은 지지벡터 분류기를 이용하여 추정하였다. 제안된 방법은 문법관계 및 구문구조 부착 말뭉치를 이용하여 자동으로 문법관계를 학습하였고 주어, 목적어, 부사 각각의 문법관계분석에 대해 각각 $84.8\%,\;94.1\%,\;84.8\%$의 성능을 얻었다.

자동 구축된 구문패턴사전과 규칙을 이용한 구묶음 (Chunking Using Automatic Constructed Syntactic Pattern Dictionary and Rule)

  • 임지희;최호섭;이정철;옥철영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2004년도 제16회 한글.언어.인지 한술대회
    • /
    • pp.35-39
    • /
    • 2004
  • 본 논문은 실용적인 구문분석기의 전단계로서, 자동 구축된 구문패턴사전과 규칙을 이용하여 구묶음하는 방법을 제안한다. 우선 규칙은 구문분석 말뭉치(30,875어절)를 대상으로 자동 추출된 고빈도의 규칙(Rewriting Rule)을 본 논문에 맞게 수동으로 구축하였다. 규칙은 조건부, 행위부로 이루어진 이진 규칙(binary rule)의 형태를 이루며, 명사구(NP), 수식어구(AP, DP), 인용구(X), 용언구(VP, VC)을 대상으로 15개를 구축하였다. 그리고 구문패턴은 중심어와 중심어 선행 요소의 특성뿐만 아니라 중심어 후행 요소도 고려하여 형식화시킨 것으로, 중심어의 복합용언 여부에 따라 일반용언패턴과 본+보조용언패턴으로 구분한다. 부분적인 언어 현상의 처리보다는 실세계에서 사용되는 수많은 문장들에 내재되어 있는 매우 광범위한 언어 현상의 처리를 하기 위해, 구문패턴은 형태소주석 말뭉치(460만 어절)을 대상으로 자동 구축하였다. 구축된 구문패턴사전과 규칙을 이용하여 구묶음을 수행한 결과 정확율 83.09%가 나타났다.

  • PDF