• Title/Summary/Keyword: 기본 명사구

Search Result 22, Processing Time 0.029 seconds

Identification of Chinese Maximal Noun Phrase on Different Context Size Settings Using SVMs (SVMs을 이용한 중국어 최장 명사구 자동 식별)

  • 윤창호;이금희;정유진;김동일;이종혁
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.889-891
    • /
    • 2004
  • 중국어의 명사구는 기본 명사구, 최단 명사구, 최장 명사구 등으로 분류할 수 있다. 최장 명사구를 잘 식별해 낼 수 있다면 구문 분석의 복잡도를 크게 낮추고 구문분석의 성능을 향상시킬 수 있다. 각 단어는 시작 태그(O), 종결 태그(C), 한 단어로 이루어진 구 태그(S), 그 외의 태그(N) 등 4가지로 태깅된다. 본 논문은 서로 다른 윈도우 크기(window size)에 기반한 5가지 SVMs 학습 모델을 구축하고 시스템 합성 방법을 이용하여 중국어 최장 명사구 식별에서 85.17%의 정확률을 보여줬다.

  • PDF

The Extraction of Korean Noun Phrases based on Dependency Patterns (의존관계 패턴에 기반한 한국어 명사구의 추출)

  • Seungshik Kang;Sangmo Lee;Minhaeng Lee
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.615-617
    • /
    • 2023
  • 이 연구는 한국어 명사구를 말뭉치로부터 추출하는 방법의 하나로 의존관계 패턴에 기반한 접근방법을 제안하는 것을 목적으로 한다. 이 방법론을 활용한 경우에 명사구 추출의 정확성을 높일 수 있다. 이 논문에서는 한국어 법령 의존 말뭉치를 구축하는 단계부터 상위 명사구 목록을 생성하기 까지 거치는 5단계에 대해 상세하게 논의하는 한편, 의존구조 검색시스템을 통해 의존관계 패턴을 추출하는 절차에 대해 기술하고 이 작업을 수행하기 위한 검색식들의 특성들에 대해 검토한다.

  • PDF

Two-Level Machine Learning Approach to Identify Maximal Noun Phrase in Chinese (두 단계 학습을 통한 중국어 최장명사구 자동식별)

  • Yin, Chang-Hao;Lee, Yong-Hun;Jin, Mei-Xun;Kim, Dong-Il;Lee, Jong-Hyeok
    • Annual Conference on Human and Language Technology
    • /
    • 2004.10d
    • /
    • pp.53-61
    • /
    • 2004
  • 일반적으로 중국어의 명사구는 기본명사구(base noun phrase), 최장명사구(maximal noun phrase) 등으로 분류된다. 최장명사구에 대한 정확한 식별은 문장의 전체적인 구조를 파악하고 정확한 구문 트리(parse tree)를 찾아내는데 중요한 역할을 한다. 본 논문은 두 단계 학습모델을 이용하여 최장명사구 자동식별을 진행한다. 먼저 기본명사구, 기본동사구, 기본형용사구, 기본부사구, 기본수량사구, 기본단문구, 기본전치사구, 기본방향사구 등 8가지 기본구를 식별한다. 다음 기본구의 중심어(head)를 추출해 내고 이 정보를 이용하여 최장명사구의 식별을 진행한다. 본 논문에서 제안하는 방법은 기존의 단어레벨의 접근방법과는 달리구레벨에서 학습을 진행하기 때문에 주변문맥의 정보를 많이 고려해야 하는 최장명사구 식별에 있어서 아주 효과적인 접근방법이다. 후처리 작업을 하지 않고 기본구의 식별에서 25개 기본구 태그의 평균 F-measure가 96%, 평균길이가 7인 최장명사구의 식별에서 4개 태그의 평균 F-measure가 92.5%로 좋은 성능을 보여주었다.

  • PDF

Korean Syntax Analysis Using Sentence Pattern Information (문형 정보를 이용한 한국어 구문 분석)

  • Han, Yong-Gi;Hwang, Yi-Gyu;Lee, Yong-Seok
    • Annual Conference on Human and Language Technology
    • /
    • 1995.10a
    • /
    • pp.23-29
    • /
    • 1995
  • 대부분의 한국어 구문 분석은 용언과 명사구 사이의 하위범주화 정보를 이용하여 용언에 대한 명사구의 문법적 역할을 밝히는 방향으로 구문 분석을 시도하였다. 여기에 이용된 용언의 하위 범주화 정보가 단지 자릿수 서술어나 형용사, 자동사, 타동사 등으로 분류하는 수준이었기 때문에 구문 모호성이 많이 발생하고 틀린 문장이 구문적으로 옳기 때문에 옳은 문장으로 인식되는 경우가 발생하였다. 이러한 문제점을 해결하기 위하여 본 논문에서는 한국어의 용언에 따른 문장 형태(문형)를 세분류하고 문장에 필수적으로 나타나는 명사구(NP[case])와 수의적으로 나타나는 명사구(NP[case])를 분류하여 분석을 시도하였다. 확장된 PATR II로 문법을 기술하여 동적인 파싱을 쉽게 제어할 수 있도록 하였다. 문형 정보는 한국어의 기본 구조를 자연스럽게 표현할 수 있기 때문에 그 자체를 기계번역을 위한 한국어 문법으로 설정하는 것이 타당하다고 생각된다.

  • PDF

Selecting Model of Head in Support Verb Constructions for Phrase-Pattern-based Korean-to-English Machine Translation (구 단위 패턴 기반 한영 기계 번역에서의 기능동사 구문의 중심어 선택 모델)

  • Kim, Hae-Gyung;Chae, Young-Soog;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10e
    • /
    • pp.203-208
    • /
    • 1999
  • 한국어는 잉여성과 중의성의 범 언어적인 특징과 함께 다른 언어에 비해 주어의 생략이 두드러지며 어순이 자유롭기 때문에 구문 형식의 지배를 덜 받는다는 개별적인 특성을 지닌다. 이러한 특성으로 인해 기계번역의 패턴을 추출할 때 서로 유사 가능성이 있는 패턴에 대한 고려가 없이는 같은 의미의 서로 다른 여러 개의 패턴을 모두 하나의 패턴으로 처리하는 오류를 범할 위험이 있다. 본 연구에서 사용되는 구 단위 패턴은 동사구, 명사구, 형용사구 그리고 부사구를 중심으로 한국어 패턴, 패턴 대표 카테고리, 한국어 패턴의 중심어 및 제약조건 대역영어패턴 의미코드로 나뉜다. 범 언어적인 특성의 한국어와 영어간 격차를 해소하기 위해 각각의 명사에 의미코드를 사용하여 다중 언어기반 체계를 구축하였으며. 한국어의 개별적인 특성으로 인해 발생하는 문제를 해소하기 위해 중심어 부과 자질을 사용하였다. 중심어 부과 자질에 있어서, 특히 술어기능명사를 중심어로 하는 기능동사 '하-' 구문은 다른 동사 구문의 형식과는 달리 논항의 수와 형태를 동사가 아닌 명사가 수행하게 된다. 이러한 특징에 대한 변별적인 자질 부여는 구문의 형태-통사적 특징 뿐만이 아니라 의미적인 고유의 특성까지도 잘 뒷받침하면서 패턴 추출에 월등한 효율성을 제시할 수 있다. 향후 이에 대한 연구는 전반적인 기능동사 구문뿐만이 아니라 개별적인 특징을 보이는 모든 구문에 대한 연구로 확대되어 패턴 기반 기계번역의 패턴 추출에 기본적인 정보의 역할을 담당해야 할 것이다.

  • PDF

Semi-Automatic Dialog Act Annotation based on Dialog Patterns (대화 패턴 기반 대화 의도 반자동 부착 방법)

  • Choi, Sung-Kwon;Jeong, Sang-Gun;Kim, Young-Gil
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2013.11a
    • /
    • pp.1298-1301
    • /
    • 2013
  • 대화 시스템에서 올바른 대화를 진행하기 위해서는 화자의 대화 의도를 파악하는 것이 중요하다. 특히 영어를 교육하기 위한 영어 교육용 대화 시스템에서는 학습자의 대화 의도 파악 오류가 발생할 경우 영어 교육에 문제가 발생하기 때문에 학습자의 대화 의도를 더욱 정확하게 분석 및 파악하는 것이 중요하다. 대화 패턴이란 시스템 발화에 대응되는 사용자 발화의 규칙적인 연쇄라고 할 수 있다. 대화 패턴 기반 대화 의도 부착 방법은 1) 대화 코퍼스 구축 2) 대화 시나리오에 있는 발화를 대상으로 기본 명사구 청킹(Base NP Chunking)을 하고 중심어(Head Word), 토픽 추적(Topic Tracking)에 의한 대화 패턴을 자동으로 추출한 후, 3) 대화 패턴 수동 검수이다. 대화 패턴 기반 대화 의도 부착 방법은 기본 명사구에 대한 지식만 가지고 있으면 대량으로 구축할 수 있다는 장점이 있다. 99 개의 대화 시나리오를 학습코퍼스로 하고 1 개의 대화 시나리오에 대해 대화턴 성공률을 시물레이션 한 결과 63.64%가 나왔다.

Implementation of Case Phenomena in the Korean TCCG System (유형상속 결합범주문법에서의 격현상 구현)

  • Lee, Wha Yun;Lee, Yong-Hun
    • Annual Conference on Human and Language Technology
    • /
    • 2010.10a
    • /
    • pp.118-122
    • /
    • 2010
  • 격현상은 한국어의 여러 가지 문법현상들을 분석하고 이를 전산학적으로 구현하는데 아주 중요한 부분 중의 하나이다. 결합범주문법(Combinatory Categorial Grammar; CCG)을 이용한 대부분의 기존 연구들에서는 격조사나 보조사들에도 별도의 통사범주들을 할당한 후, 이들 조사들이 명사와 결합하여 하나의 명사구를 구성하는 것으로 조사들을 처리하고 있다. 그러나 이러한 방법들은 이론적인 문제점들뿐만 아니라 전산적 구현에 있어서도 문제점을 안고 있다. 본 논문에서는 이러한 문제점들을 해결하면서도 한국어의 격현상을 효과적으로 구현할 수 있는 방법을 소개한다. 본 논문에서 사용하려고 하는 문법공학 시스템은 한국어를 위한 유형상속 결합범주문법(Type-inherited Combinatory Categorial Grammar; TCCG)이다. 이 시스템 안에서는 명사구의 격조사나 보조사들이 별도의 통사범주들을 할당받지 않고, 명사의 굴절규칙(inflectional rules)에 의하여 명사와 결합하게 된다. 따라서 국어의 기본적인 격조사들을 효율적으로 구현할 수 있을 뿐만 아니라 보조사나 격조사 탈락현상들도 효과적으로 분석하고 구현할 수 있게 된다.

  • PDF

Maximal Length Noun Phrase Identification Based on Punctuations and Expanded Chunk (문장부호 정보와 확장된 청크에 기반한 중국어 최장명사구 식별)

  • Bai, Xue-Mei;Jin, Mei-Xun;Li, Jin-Ji;Chung, You-Jin;Lee, Jong-Hyeok
    • Annual Conference on Human and Language Technology
    • /
    • 2005.10a
    • /
    • pp.112-119
    • /
    • 2005
  • 명사구는 기본명사구와 최장명사구로 분류된다. 최장명사구에 대한 정확한 식별은 문장의 전체적인 구문구조를 파악하고 문장의 정확한 지배용언을 찾아내는데 중요한 역할을 수행한다. 본 논문에서는 확장된 청크(chunk) 개념과 다섯 개의 클래스로 세분화된 문장부호 정보를 사용한 최장명사구 식별 기법을 제안한다. 제안된 기법은 기본모델(baseline)보다 4.05% 향상된 평균 88.63%의 우수한 F-measure 성능을 보인다.

  • PDF

An Effective Approach Using Sentence Symbols to Identify Maximal-Length Noun Phrase in Chinese (문장부호를 사용한 효과적인 중국어 최장명사구 식별기법)

  • Bai Xue-Mei;Li Jin-Ji;Jin Mei-Xun;Cheng You-Jin;Lee Jong-Hyeok
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.07b
    • /
    • pp.454-456
    • /
    • 2005
  • 일반적으로 중국어의 명사구는 최단명사구, 기본명사구 최장명사구로 분류된다. 최장명사구에 대한 정확한 식별은 문장의 전체적인 구조를 파악하고 문장의 정확한 지배용언을 찾아내는데 중요한 역할을 한다. 본 논문에서는 특성에 따라 5개의 클래스로 세분화된 문장부호를 학습자질로 사용하여 최장명사구 자동식별을 진행한다. 제안된 기법은 평균길이가 4인 최장명사구의 식별실험에서 기본모델(baseline)보다 $4.5\%$ 향상된 평균 $85.1\%$의 우수한 F-measure 성능을 보인다.

  • PDF

Morphological Analysis of the Korean Language (한국어의 형태소해석)

  • Lee, Soo-Hyon;Ozawa, S.;Lee, Joo-Keun
    • Journal of the Korean Institute of Telematics and Electronics
    • /
    • v.26 no.4
    • /
    • pp.53-61
    • /
    • 1989
  • A morphological analysis is described to extract the informations which are required in syntactic and semantic analysis of the Korean language. The noun and particle are separated in a noun phrase, the selecting conditions are specified to analyze the compound noun and a restoring rule is represented to process the irregular compound noun. The stem and ending are separated in normal verbals and a logical representive form is proposed to the anomalously inflected word and contracted vowels. The logical representation is composed of the attribute value an analyzing rule. The redundancy of noun is reduced in the dictionary as the verb of a "Nounformed HA-" is processed by "noun" and "HA-", separately and a predicative "IDA" is analyzed by Q parameter. The processing form of negation is also derived and the morpheme and basic structure of compound predicative parts are presented.

  • PDF