• Title/Summary/Keyword: 명사구

Search Result 150, Processing Time 0.023 seconds

Chunking of Contiguous Nouns using Compound Noun Dictionary of Length Two (두 개의 명사쌍으로 이루어진 복합명사사전을 이용한 연속된 명사열의 구묶음)

  • Ahn, Kwangmo;Seo, Young-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2009.10a
    • /
    • pp.176-180
    • /
    • 2009
  • 구문분석에서 구문중의성(syntactic ambiguation)은 구문분석의 성능에 많은 영향을 미친다. 구문중의성을 일으키는 많은 요인들이 있지만, 특히 조사가 발달된 한국어의 구문분석에서 조사가 생략된 명사들은 구문중의성을 증가시키는 큰 요인 중 하나이다. 그렇기 때문에 조사가 없거나 생략된 연속된 명사열(contiguous nouns)의 길이가 길어질수록 구문중의성은 지수적으로 증가하게 된다. 따라서 현재까지의 연구에서는 이런 명사열들을 마치 하나의 명사처럼 구묶음을 하여 처리하는 경우가 많았다. 하지만, 조사가 없는 명사열들을 모두 하나의 명사구처럼 처리하여 구문분석을 수행할 경우, 주요 문장성분들이 잃어버리게 되는 경우가 발생한다. 따라서 본 논문에서는 하나의 명사처럼 쓰일 수 있는 조사가 없는 연속된 명사열을 복합명사구라고 정의하고, 두 개의 명사쌍으로 구축된 복합명사사전만을 이용하여 세 개 이상의 명사로 구성된 복합명사구들을 사전에 등록하지 않고도 복합명사구를 구묶음하는 방법에 대하여 기술한다. 실험을 위해 세종사전 150,546개의 예문에서 두 개 이상의 조사가 생략된 21,482개의 명사쌍을 추출하여 복합명사사전으로 변환하였으며, 총 6,316개의 사전 데이터가 구축되었다. 복합명사 구묶음 모듈은 조사가 생략된 명사열을 입력으로 받아서 우에서 좌로 검색하며 구묶음이 가능한 명사들을 연결하고, 연결된 명사들끼리 하나의 복합명사로 구묶음을 한다. 실험은 사전을 구축할 때 쓰였던 말뭉치와 사전을 구축할 때 쓰이지 않은 말뭉치를 이용하여 수행하였다. 결과는 사전을 구축할 때 쓰인 말뭉치를 이용하였을 때는 96.76%의 정확도를 보였으며, 사전을 구축할 때 쓰이지 않은 말뭉치를 이용하였을 경우는 12.23%의 정확도를 보였다.

  • PDF

The Extraction of Korean Noun Phrases based on Dependency Patterns (의존관계 패턴에 기반한 한국어 명사구의 추출)

  • Seungshik Kang;Sangmo Lee;Minhaeng Lee
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.615-617
    • /
    • 2023
  • 이 연구는 한국어 명사구를 말뭉치로부터 추출하는 방법의 하나로 의존관계 패턴에 기반한 접근방법을 제안하는 것을 목적으로 한다. 이 방법론을 활용한 경우에 명사구 추출의 정확성을 높일 수 있다. 이 논문에서는 한국어 법령 의존 말뭉치를 구축하는 단계부터 상위 명사구 목록을 생성하기 까지 거치는 5단계에 대해 상세하게 논의하는 한편, 의존구조 검색시스템을 통해 의존관계 패턴을 추출하는 절차에 대해 기술하고 이 작업을 수행하기 위한 검색식들의 특성들에 대해 검토한다.

  • PDF

Chunking of Contiguous Nouns using Noun Semantic Classes (명사 의미 부류를 이용한 연속된 명사열의 구묶음)

  • Ahn, Kwang-Mo;Seo, Young-Hoon
    • The Journal of the Korea Contents Association
    • /
    • v.10 no.3
    • /
    • pp.10-20
    • /
    • 2010
  • This paper presents chunking strategy of a contiguous nouns sequence using semantic class. We call contiguous nouns which can be treated like a noun the compound noun phrase. We use noun pairs extracted from a syntactic tagged corpus and their semantic class pairs for chunking of the compound noun phrase. For reliability, these noun pairs and semantic classes are built from a syntactic tagged corpus and detailed dictionary in the Sejong corpus. The compound noun phrase of arbitrary length can also be chunked by these information. The 38,940 pairs of 'left noun - right noun', 65,629 pairs of 'left noun - semantic class of right noun', 46,094 pairs of 'semantic class of left noun - right noun', and 45,243 pairs of 'semantic class of left noun - semantic class of right noun' are used for compound noun phrase chunking. The test data are untrained 1,000 sentences with contiguous nouns of length more than 2randomly selected from Sejong morphological tagged corpus. Our experimental result is 86.89% precision, 80.48% recall, and 83.56% f-measure.

Korean BaseNP Identification Model using Forward and Backward Processing Characteristics (방향성을 이용한 한국어 비재귀 명사구 인식 모델)

  • Lee, Sheen-Mok;Kang, In-Ho;Kim, Gil-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 2001.10d
    • /
    • pp.439-444
    • /
    • 2001
  • 비재귀 명사구(baseNP)는 단순한 단어 패턴과 품사 패턴에 의하여 쉽게 인식되므로, 자연어처리의 다양한 분야에서 활용한다. 교착어의 지배 성분 후위 원칙에 의하여 한국어 비재귀 명사구 인식은 보다 많은 광역 정보를 필요로 하므로, 본 논문에서는 광역 정보의 활용이 쉬운 상태 기반 모델을 사용한다. 본 논문은 상태 기반의 한국어 비재귀 명사구 인식에서 방향성을 고려한다. 교착어의 특성상 한국어 비재귀 명사구는 처음 위치가 끝 위치에 비하여 인식이 어려운 특징을 가지므로 방향성을 고려하여 오른쪽 우선의 방범을 활용한 경우, 모델의 특성 및 성능이 변화한다. 본 논문에서는 기존의 왼쪽 우선 방법과 새로이 제안하는 오른쪽 우선 방법을 각각 적용하고, 양 방법을 통합하는 방법들을 제안한다. 통합 결과 92.55%의 정확률과 90.90%의 재현률을 얻었다.

  • PDF

Statistical Phrase Indexing Based on Positional Relation for Korean Information Retrieval (한국어 정보검색에서 위치관계에 기반한 통계적 구 색인)

  • Hong, Gum-Won;Kim, Sang-Bum;Lee, Sang-Zoo;Rim, Hae-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 2001.10d
    • /
    • pp.76-82
    • /
    • 2001
  • 최근 웹 문서의 규모가 커짐에 따라 높은 정확도를 필요로하는 정보검색시스템이 요구되고 있다. 구 색인은 정확도를 향상시킬 수 있는 방법으로 전통적으로 많이 사용되어 왔으며, 정보검색에서 사용하는 구는 크게 통계적인 구와 구문적인 구로 나눌 수 있다. 한국에서는 주최 복합명사를 처리하거나, 구문적인 구를 이용한 방법들만이 사용되어 왔고, 통계적인 구를 이용한 검색은 연구되지 않았다. 질의에 존재하는 구의 위치관계와 문서에 존재하는 구의 위치관계가 서로 동일하다면 그 문서는 그 질의와 더욱 유사할 것이라 판단하고, 본 논문에서는 통계적인 구에서 구 구성요소간의 위치관계를 고려한 정보검색 시스템을 제안한다. 명사구 이치의 유용한 구를 생성하기 위하여 내용어를 색인했으며 색인어간의 거리와 순서를 고려하여 가중치를 부여하였다. 명사구와 내용어에 기반한 구를 사용한 각각의 실험에서 거리에 따른 가중치를 부여하는 방법이 거리를 무시한 방법에 비해서 효과적이었고 구 구성요소간의 위치관계를 고려하는 것이 성능향상의 주요한 요인임을 알 수 있었다. 또한 명사위주의 질의에서는 내용어보다는 명사만을 색인하는 것이 효과적임을 알 수 있었다.

  • PDF

Generation of Compound Nouns Using Automatic Constructed Syntactic Patterns and Semantic Network (자동 생성한 구문패턴과 의미망을 이용한 복합명사 생성)

  • Im, Ji-Hui;Choe, Ho-Seop;Ock, Cheol-Young
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2004.05a
    • /
    • pp.655-658
    • /
    • 2004
  • 본 논문은 구문패턴과 의미망을 이용하여 복합명사를 생성하는 방법을 제안하고, 제안된 방법으로 설계 구현된 시스템, 복합명사 생성기(Compound Nouns Generator : CNG)를 제시한다. 복합명사에 관한 연구는 형태적, 구문적, 의미적인 관점에서의 분석과 생성에 이르기까지 폭넓게 진행되고 있다. 본 논문에서는, 사전에 등재된 표제어만을 복합명사로 인정하고, 나머지는 1차적으로 명사 연결구로 파악한다. 그리고 이것을 다시 신형 복합명사와 명사 연결구로 파악함으로써, 복합명사에 대한 명확한 기준을 제시하여 자연언어처리, 정보검색 등에서 효율성을 높이고자 하였다. 본 논문에서 제안한 시스템은 복합명사 확장을 위해 구문패턴을 자동 생성함으로써 시스템의 융통성을 향상시키고, 구문패턴과 의미망을 통해 생성된 복합명사와 명사 연결구의 말뭉치상의 빈도정보를 이용함으로써 고빈도의 명사 연결구가 복합명사로서 굳어질 수 있는 가능성을 보여주기도 한다. 또한, 구문패턴과 의미망을 통해 생성된 명사 연결구를 비교하여 생성된 신형 복합명사는 구문패턴에 의해 뜻풀이가 자동으로 생성된다.

  • PDF

Korean BaseNP Identification using the variation of context length and position (문맥 윈도우의 크기와 위치 변화를 이용한 한국어 기반 명사구 인식)

  • 전수영;강인호;김길창
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.04b
    • /
    • pp.454-456
    • /
    • 2002
  • 한국어의 비재귀 명사구 즉 기반 명사구(basehp)를 인식하는 알고리즘을 제시한다. 본 논문에서는 한개의 주어진 학습 알고리즘에 대해 문맥 윈도우의 크기와 문맥 윈도우의 위치를 달리해 가면서 학습시킨다 이러한 방법을 통해 서로 다른 정보를 바탕으로 한 기반 명사구 인식을 수행할 수 있으며, 그 결과서로 다른 여러 개의 결과들을 생성할 수 있다. 본 논문에에서는 이렇게 얻어진 여러 개의 인식 결과들을 적절한 방법으로 결합하여 한국어에서 91% 이상의 높은 기반명사구 인식 정확도를 얻어낼 수 있다. 15만 단어 규모의 국어정보베이스의 말뭉치를 사용했으며 , 학습 알고리즘으로는 메모리 기반 학습 알고리즘 (memory-based learning)을 이용하여 실험하였다.

  • PDF

A Method of Word Sense Disambiguation for Korean Complex Noun Phrase Using Verb-Phrase Pattern and Predicative Noun (기계 번역 의미 대역 패턴을 이용한 한국어 복합 명사 의미 결정 방법)

  • Yang, Seong-Il;Kim, Young-Kil;Park, Sang-Kyu;Ra, Dong-Yul
    • Annual Conference on Human and Language Technology
    • /
    • 2003.10d
    • /
    • pp.246-251
    • /
    • 2003
  • 한국어의 언어적 특성에 의해 빈번하게 등장하는 명사와 기능어의 나열은 기능어나 연결 구문의 잦은 생략현상에 의해 복합 명사의 출현을 발생시킨다. 따라서, 한국어 분석에서 복합 명사의 처리 방법은 매우 중요한 문제로 인식되었으며 활발한 연구가 진행되어 왔다. 복합 명사의 의미 결정은 복합 명사구 내 단위 명사간의 의미적인 수식 관계를 고려하여 머리어의 선택과 의미를 함께 결정할 필요가 있다. 본 논문에서는 정보 검색의 색인어 추출 방법에서 사용되는 복합 명사구 내의 서술성 명사 처리를 이용하여 복합 명사의 의미 결정을 인접 명사의 의미 공기 정보가 아닌 구문관계에 따른 의미 공기 정보를 사용하여 분석하는 방법을 제시한다. 복합 명사구 내에서 구문적인 관계는 명사구 내에 서술성 명사가 등장하는 경우 보-술 관계에 의한 격 결정 문제로 전환할 수 있다. 이러한 구문 구조는 명사 의미를 결정할 수 있는 추가적인 정보로 활용할 수 있으며, 이때 구문 구조 파악을 위해 구축된 의미 제약 조건을 활용하도록 한다. 구조 분석에서 사용되는 격틀 정보는 동사와 공기하는 명사의 구문 관계를 분석하기 위해 의미 정보를 제약조건으로 하여 구축된다. 이러한 의미 격틀 정보는 단문 내 명사들의 격 결정과 격을 채우는 명사 의미를 결정할 수 있는 정보로 활용된다. 본 논문에서는 현재 개발중인 한영 기계 번역 시스템 Tellus-KE의 단문 단위 대역어 선정을 위해 구축된 의미 대역패턴인 동사구 패턴을 사용한다. 동사구 패턴에 기술된 한국어의 단문 단위 의미 격 정보를 사용하는 경우, 격결정을 위해 사용되는 의미 제약 조건이 복합 명사의 중심어 선택과 의미 결정에 재활용 될 수 있으며, 병렬말뭉치에 의해 반자동으로 구축되는 의미 대역 패턴을 사용하여 데이터 구축의 어려움을 개선하고자 한다. 및 산출 과정에 즉각적으로 활용될 수 있을 것이다. 또한, 이러한 정보들은 현재 구축중인 세종 전자사전에도 직접 반영되고 있다.teness)은 언화행위가 성공적이라는 것이다.[J. Searle] (7) 수로 쓰인 것(상수)(象數)과 시로 쓰인 것(의리)(義理)이 하나인 것은 그 나타난 것과 나타나지 않은 것들 사이에 어떠한 들도 없음을 말한다. [(성중영)(成中英)] (8) 공통의 규범의 공통성 속에 규범적인 측면이 벌써 있다. 공통성에서 개인적이 아닌 공적인 규범으로의 전이는 규범, 가치, 규칙, 과정, 제도로의 전이라고 본다. [C. Morrison] (9) 우리의 언어사용에 신비적인 요소를 부인할 수가 없다. 넓은 의미의 발화의미(utterance meaning) 속에 신비적인 요소나 애정표시도 수용된다. 의미분석은 지금 한글을 연구하고, 그 결과에 의존하여서 우리의 실제의 생활에 사용하는 $\ulcorner$한국어사전$\lrcorner$ 등을 만드는 과정에서, 어떤 의미에서 실험되었다고 말할 수가 있는 언어과학의 연구의 결과에 의존하여서 수행되는 철학적인 작업이다. 여기에서는 하나의 철학적인 연구의 시작으로 받아들여지는 이 의미분석의 문제를 반성하여 본다.반인과 다르다는 것이 밝혀졌다. 이 결과가 옳다면 한국의 심성 어휘집은 어절 문맥에 따라서 어간이나 어근 또는 활용형 그 자체로 이루어져 있을 것이다.으며, 레드 클로버 + 혼파 초지가 건물수량과 사료가치를 높이는데 효과적이었다.\ell}$ 이었으며 , yeast extract 첨가(添加)하여 배양시(培養時)는 yeast extract 농도(濃度)가 증가(增加)함에 따라 단백질(蛋白質) 함량(含量)도 증가(增加)하였다. 7. CHS-13 균주(菌株)의 RNA 함량(

  • PDF

Processing Dependent Nouns Based on Chunking for Korean Syntactic Analysis (한국어 구문분석을 위한 구묶음 기반 의존명사 처리)

  • Park Eui-Kyu;Ra Dong-Yul
    • Korean Journal of Cognitive Science
    • /
    • v.17 no.2
    • /
    • pp.119-138
    • /
    • 2006
  • It is widely known that chunking is beneficial to syntactic analysis. This paper introduces a method of chunking thai is useful for structural analysis of sentences in Korean. Dependent nouns in Korean usually tend to make sentences complex and long. By performing chunking operations related with dependent nouns, it is possible to reduce sentence complexity and thus make syntactic analysis easier. With this aim in mind we investigated techniques for chunking related with dependent nouns. We proposed a variety of chunking schemes according to the types of dependent nouns. The experiments showed that carrying out chunking leads to significant improvement of performance in syntactic analysis for Korean.

  • PDF

Extracting and Utilizing is-a Relation Patterns for Question Answering System (자연어 질의응답 시스템을 위한 is-a 관계 패턴의 구축과 활용)

  • Shim, Bo-Jun;Ko, Yung-Joong;Kim, Hark-Soo;Seo, Jung-Yun
    • Annual Conference on Human and Language Technology
    • /
    • 2004.10d
    • /
    • pp.181-188
    • /
    • 2004
  • 대다수의 개방영역 자연어 질의응답 시스템은 답을 선택할 수 있는 개념영역을 미리 정의하고 있기 때문에 시스템이 준비하지 못한 범주의 개념을 묻는 질의문에 대해서는 올바른 응답을 생성하지 못하거나 예외 처리 방식으로 응답을 생성해 낸다. 본 논문에서는 전형적인 범주에 속하지 않는 명사 개념에 관한 질의문에 대해 범용적으로 대응할 수 있는 개방영역 자연어 질의응답 시스템을 제안한다. 제안하는 시스템은 상위 개념 명사구(Hypernym)에 포함되는 하위 개념의 명사구(Hyponym)들을 추출할 수 있는 일반적인 패턴들을 그 신뢰도와 함께 가지고 있다. 따라서 질의문이 임의의 명사구 개념을 요청할 때 정답의 후보들을 동적으로 생성되는 가상의 is-a 의미관계 사전으로부터 신뢰 순위로 정렬하여 추출해 낼 수가 있다. 제안하는 시스템은 "What 명사구 동사구" 형태의 질의문들 중에서 개체명 인식기나 시소러스를 이용하여 정답 후보를 손쉽게 생성할 수 있는 질의문을 배제한 실험용 질의문 집합을 이용한 실험에서 42%의 재현율을 보였다.

  • PDF