• Title/Summary/Keyword: 구문 정보

Search Result 954, Processing Time 0.022 seconds

Korean Syntax Analysis Using Sentence Pattern Information (문형 정보를 이용한 한국어 구문 분석)

  • Han, Yong-Gi;Hwang, Yi-Gyu;Lee, Yong-Seok
    • Annual Conference on Human and Language Technology
    • /
    • 1995.10a
    • /
    • pp.23-29
    • /
    • 1995
  • 대부분의 한국어 구문 분석은 용언과 명사구 사이의 하위범주화 정보를 이용하여 용언에 대한 명사구의 문법적 역할을 밝히는 방향으로 구문 분석을 시도하였다. 여기에 이용된 용언의 하위 범주화 정보가 단지 자릿수 서술어나 형용사, 자동사, 타동사 등으로 분류하는 수준이었기 때문에 구문 모호성이 많이 발생하고 틀린 문장이 구문적으로 옳기 때문에 옳은 문장으로 인식되는 경우가 발생하였다. 이러한 문제점을 해결하기 위하여 본 논문에서는 한국어의 용언에 따른 문장 형태(문형)를 세분류하고 문장에 필수적으로 나타나는 명사구(NP[case])와 수의적으로 나타나는 명사구(NP[case])를 분류하여 분석을 시도하였다. 확장된 PATR II로 문법을 기술하여 동적인 파싱을 쉽게 제어할 수 있도록 하였다. 문형 정보는 한국어의 기본 구조를 자연스럽게 표현할 수 있기 때문에 그 자체를 기계번역을 위한 한국어 문법으로 설정하는 것이 타당하다고 생각된다.

  • PDF

SQL Extensions for Handling Spreadsheets and PIVOT tables in OLAP Environment (OLAP 환경에서 스프레드시트와 피벗 테이블을 다루기 위한 SQL의 확장)

  • Shin, Sung-Hyun;Kim, Jin-Ho;Moon, Yang-Sae;Kim, Sang-Wook
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2008.06c
    • /
    • pp.21-25
    • /
    • 2008
  • 온라인 분석 처리(On-Line Analytical Processing: OLAP)은 데이터 웨어하우스로부터 다차원 데이터를 분석하거나 의사 결정을 위한 유용한 정보를 제공하고 있다. 데이터 분석을 위해, OLAP에서는 다차원 데이터를 표현한 스프레드시트(spreadsheet) 또는 피벗 테이블(PIVOT table)을 널리 사용하고 있다. 스프레드시트와 피벗 테이블은 서로 유사한 형태로써 분석의 기준이 되는 애트리뷰트들이 많은 구조이다. 사용자들은 흔히 사용되고 있는 SQL 구문을 이용하여 스프레드시트 또는 피벗 테이블에서 손쉬운 데이터 분석을 요구한다. 그러나, RDBMS에서 제공하는 SQL 구문의 사용으로, 이는 다차원 데이터를 효과적으로 분석할 수 없다. 그 이유는 SQL 구문이 다양한 데이터 분석의 목적으로 사용되거나, 요약된 집계 정보를 도출하는 데 한계가 있기 때문이다. 따라서, 본 연구에서는 SQL 구문을 확장하여 다차원 데이터를 표현한 스프레드시트를 손쉽게 조작하고, 요약된 집계를 계산하는 셀(cell) 구문을 제안한다. 이 방법은 스프레드시트와 피벗 테이블에서 행과 열이 교차하는 좌표(coordinate)를 이용하여, 특정 셀의 조작 및 선택한 부분/전체 영역에 대한 집계 정보를 계산하는 방법이다. 결과적으로, RDBMS에서 사용되는 SQL 구문이 친숙한 사용자들이 제안한 셀 구문을 이용하면, 다양한 관점에 따라 손쉽게 스프레드시트와 피벗 테이블을 다룰 수 있을 것으로 사료된다.

  • PDF

The Difference between the Korean Verb Ponay-'send' and the English Verb send: based on lexical decomposition (한국어의 '보내-'와 영어의 send의 차이: 어휘 해체분석에 기반하여)

  • Kim, Mun-Hyong
    • Proceedings of the Korean Society for Language and Information Conference
    • /
    • 2008.06a
    • /
    • pp.125-137
    • /
    • 2008
  • 한국어에서는 '보내-'가 여격 구문만을 허용하는 반면에, 영어의 send는 이중목적어 구문과 여격 구문 모두를 허용한다. 이런 비 대칭성은 어휘 해체 이론에 기반하여 볼 때, 영어에서는 send가 이중 목적어 구문에서 CAUSE와 전치사 $P_{HAVE}$로 분해되는 동사와 여격 구문에서 CAUSE와 $P_{LOC}$로 분해되는 동사가 존재하지만, 한국어에서는 '보내-'가 CAUSE와 $P_{LOC}$로만 분해되는 동사만 존재하기 때문에 나타나는 현상이다. 이는 한국어의 '보내-'가 '주-'와 결합할 때는 이중 목적어 구문을 허용하는 것으로부터 알 수 있다. '주-'는 $P_{HAVE}$를 갖는 동사와 $P_{LOC}$를 갖는 동사로 나누어지는데, $P_{HAVE}$로 나누어지는 '주-'가 '보내-'의 이중목적어 구문을 허용해 주는 것으로 본다. '주-'는 '보내-' 이외에도 사역 동사들과 수여 동사들의 이중 목적어 구문의 형성을 돕는다.

  • PDF

Korean morphological analysis and phrase structure parsing using multi-task sequence-to-sequence learning (Multi-task sequence-to-sequence learning을 이용한 한국어 형태소 분석과 구구조 구문 분석)

  • Hwang, Hyunsun;Lee, Changki
    • 한국어정보학회:학술대회논문집
    • /
    • 2017.10a
    • /
    • pp.103-107
    • /
    • 2017
  • 한국어 형태소 분석 및 구구조 구문 분석은 한국어 자연어처리에서 난이도가 높은 작업들로서 최근에는 해당 문제들을 출력열 생성 문제로 바꾸어 sequence-to-sequence 모델을 이용한 end-to-end 방식의 접근법들이 연구되었다. 한국어 형태소 분석 및 구구조 구문 분석을 출력열 생성 문제로 바꿀 시 해당 출력 결과는 하나의 열로서 합쳐질 수가 있다. 본 논문에서는 sequence-to-sequence 모델을 이용하여 한국어 형태소 분석 및 구구조 구문 분석을 동시에 처리하는 모델을 제안한다. 실험 결과 한국어 형태소 분석과 구구조 구문 분석을 동시에 처리할 시 형태소 분석이 구구조 구문 분석에 영향을 주는 것을 확인 하였으며, 구구조 구문 분석 또한 형태소 분석에 영향을 주어 서로 영향을 줄 수 있음을 확인하였다.

  • PDF

Dependency Parsing by Chunks (단위(Chunks) 분석과 의존문법에 기반한 한국어 구문분석)

  • 김미영;강신재;이종혁
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.04b
    • /
    • pp.327-329
    • /
    • 2000
  • 기존의 구문분석 방법은 구구조문법과 의존문법에 기반한 것이 대부분이다. 이러한 구문분석은 다양한 분석 결과들이 분석되는 동안 많은 시간이 소요되며, 잘못된 분석 결과를 찾아 내어 삭제하기(pruning)도 어렵다. 본 논문은 구문분석에 필요한 의존문법을 적용하기 이전에, 단위화(Chunking) 방법을 사용하는 것을 제안한다. 이렇게 함으로써, 의존문법에 적용하는 차트의 수를 줄이게 되고, 의존관계의 설정 범위(scope)도 제한을 가할 수 있으며, 구문분석 속도 또한 빨라지게 된다.

  • PDF

Probabilistic Parsing of Korean Sentences Based on Lexical Co-occurrence and Syntactic Rules (중심어간의 공기 정보와 구문 규칙을 기반으로 한 확률적 한국어 구문 분석)

  • Lee, Kong-Joo;Kim, Jae-Hoon;Kim, Gil-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 1997.10a
    • /
    • pp.332-338
    • /
    • 1997
  • 어휘 정보는 구문 구조의 중의성을 해결하는데 중요한 정보원으로서 작용할 수 있다. 본 논문에서는 입력 문장에 대한 구조적 중의성을 해결하는데 확률 구문 규칙뿐만 아니라, 어휘간에 발생할 수 있는 공기 정보를 사용할 수 있는 확률 모델을 제안한다. 제안된 확률 모델에 대하여 실험 데이타에 대해 평가한 결과 약 84%정도의 구문 분석 정확도를 얻을 수 있었다.

  • PDF

Dictionary Making for Disambiguation (동사의 애매성 해소를 위한 구문의미사전의 구축)

  • Song, Young-Bin;Chae, Young-Soog;Park, Yong-Il;Lee, Jun-Min;Seol, Kah-Young;Hwang, Hye-Ri;Han, Na-Ri;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10e
    • /
    • pp.280-287
    • /
    • 1999
  • 동사의 애매성이란 동일 동사 내부에서 공기하는 명사의 상충적 의미의 분포에 의해 발생한다. 이는 동일한 동사라 하더라도 명사의 상위개념, 흑은 개개의 명사에 따라 동사의 의미가 달라진다는 것을 의미한다. 동사의 애매성 해소를 위한 구문의미사전은 동사가 갖는 격틀과 논항에 오는 명사의 단어 집합에 의해 구성된다. 기계용 사전에서의 동사의 애매성이란 명사의 상위개념, 혹은 개개의 명사에 관한 정보가 결여될 때 나타난다. 지금까지의 구문의미사전은 개개의 동사가 갖는 격틀을 중심으로 논합명사의 예만을 제시하거나 명사의 상위개념을 기술하는 형식으로 구성되어 왔다. 이는 형식적인 패턴의 추출에는 유용하지만 대역어 선정을 위한 구문의미사전과 같은 섬세한 의미 정보를 필요로 하는 사전에서는 거의 효력을 발휘하지를 못한다. 다국어를 전제로 한 동사 대역어의 추출을 목적으로 하는 구문의미사전에서는 동사와 공기하는 논항명사의 철저한 추출과 검증에 의한 명사목록의 구축이 애매성 해소와 정확한 동사 대역어의 선정에 전제가 된다. 본 논문에서는 KAIST Corpus를 기반으로 현재 구축 중인 한국어 구문의미사전의 개요와 구축 과정에서 얻어진 방법론을 소개한다. 이 연구개발 결과는 과학기술부 KISTEP 특정연구개발과제 핵심소프트웨어개발 국어정보처리기술개발 중 "대용량 국어정보 심층 처리 및 품질 관리 기술 개발"의 지원을 받았다.

  • PDF

Study of Building Korean Universal Dependency Corpus focused on Syntactic Relations (한국어 Universal Dependency 말뭉치 구축 방안 연구: 구문 관계를 중심으로)

  • Won, Hye-Jin;Ryu, Pum-Mo
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.329-333
    • /
    • 2018
  • Universal Dependency 프로젝트는 여러 언어에 공통으로 적용할 수 있는 형태소 패턴과 구문 관계를 찾기 위한 연구를 진행하고 있으며, 점진적으로 많은 언어들이 참여하여 UD 가이드라인에 따라 말뭉치를 구축하고 시스템을 개발하고 있다. 한국어 UD 말뭉치도 구축되어서 공유되고 있지만 구축을 위한 상세한 가이드라인은 제공되지 않고 있다. 본 논문에서는 UD를 기반으로 한국어 구문분석 말뭉치를 구축할 때 논의되어야 할 요소들을 나열하고 예제를 통해서 설명하였다. 본 연구를 기반으로 한국어 구문분석 말뭉치 구축, 구문분석 시스템 개발에서 UD 가이드라인을 적용하는 논의가 시작되기를 기대한다.

  • PDF

Korean phrase structure parsing using sequence-to-sequence learning (Sequence-to-sequence 모델을 이용한 한국어 구구조 구문 분석)

  • Hwang, Hyunsun;Lee, Changki
    • Annual Conference on Human and Language Technology
    • /
    • 2016.10a
    • /
    • pp.20-24
    • /
    • 2016
  • Sequence-to-sequence 모델은 입력열을 길이가 다른 출력열로 변환하는 모델로, 단일 신경망 구조만을 사용하는 End-to-end 방식의 모델이다. 본 논문에서는 Sequence-to-sequence 모델을 한국어 구구조 구문 분석에 적용한다. 이를 위해 구구조 구문 트리를 괄호와 구문 태그 및 어절로 이루어진 출력열의 형태로 만들고 어절들을 단일 기호 'XX'로 치환하여 출력 단어 사전의 수를 줄였다. 그리고 최근 기계번역의 성능을 높이기 위해 연구된 Attention mechanism과 Input-feeding을 적용하였다. 실험 결과, 세종말뭉치의 구구조 구문 분석 데이터에 대해 기존의 연구보다 높은 F1 89.03%의 성능을 보였다.

  • PDF

Korean Depenency Parsing using a Maximum Spanning Tree (최대신장트리를 이용한 한국어 의존구문분석)

  • Park, Young-Min;Seo, ung-Yun
    • Annual Conference on Human and Language Technology
    • /
    • 2010.10a
    • /
    • pp.68-72
    • /
    • 2010
  • 본 논문에서는 그래프 기반의 최대신장트리(Maximum Spanning Tree)를 이용한 한국어 의존구문분석 방법을 제안한다. 우리는 최대신장트리 알고리즘을 한국어의 특성인 지배성분 후위의 원칙과 투사성의 원칙을 적용하여 한국어 의존구문분석에 적합한 알고리즘을 만들었다. 제안한 알고리즘은 기존의 한국어 의존구문분석의 방법들보다 낮은 시간복잡도를 가지며 대용량 말뭉치를 학습하기 위해 증분학습이 가능하고 비교적 학습속도가 빠른 Averaged Perceptron 알고리즘을 사용하였다. 실험결과 제안한 방법은 비교적 열악한 환경인 복문이 포함된 장문의 문장에서도 뛰어난 성능을 보여주었다,

  • PDF