• Title/Summary/Keyword: 어휘 분석의 중의성 해소

Search Result 32, Processing Time 0.025 seconds

The Lexical Sence Tagging for Word Sense Disambiguation (어휘의 중의성 해소를 위한 의미 태깅)

  • 추교남;우요섭
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10c
    • /
    • pp.201-203
    • /
    • 1998
  • 한국어의 의미 분석을 위해서 의미소가 부여된 말뭉치(Sense-Tagged Corpus)의 구축은 필수적이다. 의미 태깅은 어휘의 다의적 특성으로 인해, 형태소나 구문 태깅에서와 같은 규칙 기반의 처리가 어려웠다. 기존의 연구에서 어휘의 의미는 형태소와 구문적 제약 등의 표층상에서 파악되어 왔으며, 이는 의미 데이터 기반으로 이루어진 것이 아니었기에, 실용적인 결과를 얻기가 힘들었다. 본 연구는 한국어의 구문과 의미적 특성을 고려하고, 용언과 모어 성분간의 의존 관계 및 의미 정보를 나타내는 하위범주화사전과 어휘의 계층적 의미 관계를 나타낸 의미사전(시소러스)을 이용하여, 반자동적인 방법으로 의미소가 부여된 말뭉치의 구축을 위한 기준과 알고리즘을 논하고자 한다.

  • PDF

Resolution of Ambiguous Grammatical Functions of Korean Using Conceptual Patterns and Statistical Information (개념패턴과 통계정보를 이용한 한국어 미지격의 구문관계 결정 방법)

  • Lee, Hui-Feng;Kang, In-Su;Lee, Jong-Hyeok
    • Annual Conference on Human and Language Technology
    • /
    • 1998.10c
    • /
    • pp.261-266
    • /
    • 1998
  • 본 논문은 보조사로 인해 야기되는 한국어 미지격의 구문관계 중의성 해소를 위한 새로운 기법을 제안한다. 기존의 연구는 수작업으로 얻어진 동사의 의미적 선택 제약을 사용하는 방식과 단어 간의 공기패턴과 빈도를 어휘 레벨에서 추출하여 중의성을 해소하는 방식으로 나뉠 수 있다. 본 논문은 말뭉치에서 어휘 레벨이 아닌 개념패턴과 격의 분포 값을 자동으로 추출하여 미지격의 구문관계를 결정한다. 개념패턴과 용언의 격 분포 정보를 적용하여 구문분석 단계에서 실험한 결과, 본 논문이 제안한 방법은 92%의 미지격 결정 정확율을 보였다. 개념패턴은 지식의 저장공간을 줄이고 격 결정 범위를 확장할 수 있기에 범용 구문분석 시스템으로의 확장을 가능하게 한다.

  • PDF

Statistical Word Sense Disambiguation based on using Variant Window Size (가변길이 윈도우를 이용한 통계 기반 동형이의어의 중의성 해소)

  • Park, Gi-Tae;Lee, Tae-Hoon;Hwang, So-Hyun;Lee, Hyun Ah
    • Annual Conference on Human and Language Technology
    • /
    • 2012.10a
    • /
    • pp.40-44
    • /
    • 2012
  • 어휘가 갖는 의미적 중의성은 자연어의 특성 중 하나로 자연어 처리의 정확도를 떨어트리는 요인으로, 이러한 중의성을 해소하기 위해 언어적 규칙과 다양한 기계 학습 모델을 이용한 연구가 지속되고 있다. 의미적 중의성을 가지고 있는 동형이의어의 의미분별을 위해서는 주변 문맥이 가장 중요한 자질이 되며, 자질 정보를 추출하기 위해 사용하는 문맥 창의 크기는 중의성 해소의 성능과 밀접한 연관이 있어 신중히 결정되어야 한다. 본 논문에서는 의미분별과정에 필요한 문맥을 가변적인 크기로 사용하는 가변길이 윈도우 방식을 제안한다. 세종코퍼스의 형태의미분석 말뭉치로 학습하여 12단어 32,735문장에 대해 실험한 결과 용언의 경우 평균 정확도 92.2%로 윈도우를 고정적으로 사용한 경우에 비해 향상된 결과를 보였다.

  • PDF

Desambiguation Method based on a Lexicon of Typographical Units (`어절 정보 사전`을 이용한 형태소 분석의 중의성 (Ambiguity) 해결)

  • Nam, Jee-Sun;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 1997.10a
    • /
    • pp.75-82
    • /
    • 1997
  • 이글은 한국어 형태소 분석시 발생하는 중의성의 유형에 대해서 논의하고, 그와 같은 여러 유형의 중의성의 발생율을 감소시키기 위한 방법으로써 '어절 정보 사전 시스템'의 구축을 강조하였다. 한국어 문서에 대한 형태소 분석시 발생하는 중의성은, 영어나 유럽어와는 달리, 어휘 형성 정보 뿐아니라 어절 형성 정보, 구문 구조에 관한 부분적인 정보까지도 제공되어야 비로소 해소될 수 있는 경우가 많아 이와 같은 정보를 얻어내기 위해서는 체계적으로 고안된 범용의 사전 (Lexicon)이 필요하다. 여기에서는 접사가 동반되어 구성될 수 있는 '파생 명사(Affixed Noun)'들의 경우에 논의의 범위를 제한하였다. 실제로, 체계적으로 구성된 하나의 파생어 사전은. 주어진 어절에 대한 형태소 분절시 발생할 수 있는 엄청난 수의 중의적 가능성을 해소해 줄 수 있는데. 이와 같은 사전을 구축하기 위해서는 단순어와 접사 사전이 모듈화되어 완성되어야 한다. 같은 방법으로 모든 합성어 유형에 대한 사전이 구축되고, 그러한 기본 형태들에 대한 '변화형' 사전이 결합되면 어절 정보를 갖춘 대용량의 한국어 MRD의 구현이 가능해질 것이다.

  • PDF

Processing of the Syntactic Ambiguity Resolution in English as a Foreign Language (외국어로서의 영어 구문 중의성 해결 과정)

  • 정유진;이윤형;황유미;남기춘
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2000.05a
    • /
    • pp.261-266
    • /
    • 2000
  • 글을 이해하기 위해서는 어휘와 어휘간의 연결 및 전체 구조를 아는 것이 필요하다. 이는 비단 한국어뿐만 아니라 영어나 기타 다른 외국어에서도 마찬가지일 것이다. 본고는 두 가지를 고찰하기 위해 진행되었는데 우선 외국어로서 영어를 처리하는데 발생하는 구문적 중의성을 해결하는데 Garden Path Sentence(GPS), Late Closure(LC), PP의 세 문형에 따라 어떻게 해결하는지 알아보기 위한 것이다. 그리고 각 문형의 중의적 어절에서의 반응과 애매성 해소 어절에서의 반응에 따라 sysntactic module이 작용하는 것인지 알아보고자 한다. 예를 들어 "The boat floated down the streams sank"란 Garden Path 문장이 제시된 경우에 독자는 "sank"란 어휘가 제시되기 전까지 "floated"를 동사로 생각하게 되나 다음에 본동사인 "sank"가 제시될 경우 문장의 해석에 혼란을 갖게 될 것이다. 예문에서 "floated"가 문장에서 어떤 역할을 하는지 결정하는 것은 "sank"를 보고서야 가능하다. 이런 구문적 중의성을 해결하는 방식을 알아보기 위해 어절 단위로 제시된 자극을 읽는 자기 조절 읽기 과제(self-paced reading task)를 사용하였다. 각 어절을 읽는데 걸리는 시간을 측정한 실험 결과 GPS, PP, LC 모두 중의성을 지닌 영역이 중의성을 해소한 후와 각각 유형적으로 큰 차이가 없는 것으로 나타났다. 다만 GPS, CGPS, PP와 CPP는 어절 후반으로 갈수록 반응시간이 짧아졌다. 이는 우리나라 사람의 경우 외국어인 영어의 구문 중의성 해소는 구문 분석 단원(syntactic module)에 의한 자동적 처리라기보다 의미를 고려해 가면서 문법지식을 이용해 추론을 통한 구문 분석이라 할 수 있다.에 의한 자동적 처리라기보다 의미를 고려해 가면서 문법지식을 이용해 추론을 통한 구문 분석이라 할 수 있다.많았다(P<0.05).조군인 Group 1에서보다 높은 수준으로 발현되었다. 하지만 $12.5{\;}\mu\textrm{g}/ml$의 T. denticola sonicated 추출물로 전처리한 Group 3에서는 IL-2와 IL-4의 수준이 유의성있게 억제되어 발현되었다 (p < 0.05). 이러한 결과를 통하여 T. denticola에서 추출된 면역억제 단백질이 Th1과 Th2의 cytokine 분비 기능을 억제하는 것으로 확인 되었으며 이 기전이 감염 근관에서 발견되는 T. denticola의 치수 및 치근단 질환에 대한 병인기전과 관련이 있는 것으로 사료된다.을 보였다. 본 실험 결과, $Depulpin^{\circledR}은{\;}Tempcanal^{\circledR}와{\;}Vitapex^{\circledR}$에 비해 높은 세포 독성을 보여주공 있으나, 좀 더 많은 임상적 검증이 필요할 것으로 사료된다.중요한 역할을 하는 것으로 추론할 수 있다.근관벽을 처리하는 것이 필요하다고 사료된다.크기에 의존하며, 또한 이러한 영향은 $(Ti_{1-x}AI_{x})N$ 피막에 존재하는 AI의 함량이 높고, 초기에 증착된 막의 업자 크기가 작을 수록 클 것으로 여겨진다. 그리고 환경의 의미의 차이에 따라 경관의 미학적 평가가 달라진 것으로 나타났다.corner$적 의도에 의한 경관구성의 일면을 확인할수 있지만 엄밀히 생각하여 보면 이러한 예의 경우도 최락의 총체적인 외형은 마찬가지로 $\ulcorner$순응$\lrcorner$의 범위를 벗어나지 않는다. 그렇기 때문에도 $\ulcorner$순응$\lrcorner$$\ulcorner$표현$\lrcorner$의 성격과 형태를 외형상으로 더욱이 공간상에서는 뚜렷하게 경계

  • PDF

A Hybrid N-best Part-of-Speech Tagger for English-Korean Machine Translation (영한 기계 번역을 위한 혼합형 N-best 품사 태거)

  • Lim, Heui-Seok;Kwon, Cheol-Joong;Lee, Jae-Won;Oh, Ki-Eun
    • Annual Conference on Human and Language Technology
    • /
    • 1998.10c
    • /
    • pp.15-19
    • /
    • 1998
  • 기계 번역 시스템에서 품사 태거의 오류는 전체번역 정확률에 결정적인 영향을 미친다. 따라서 어휘 단계의 정보만으로는 중의성 해소가 불가능한 단어에 대해서는 중의성 해소에 충분한 정보를 얻을 수 있는 구문 분석이나 의미 분석 단계까지 완전한 중의성 해소를 유보하는 N-best 품사 태거가 요구된다. 또한 N-best 품사 태거는 단어에 할당되는 평균 품사 개수를 최소화함으로써 상위 단계의 부하를 줄이는 본연의 역할을 수행하여야 한다. 본 논문은 통계 기반 품사 태깅 방법을 이용하여 N-best 후보를 선정하고, 선정된 N-best 후보에 언어 규칙을 적용하여 중의성을 감소시키거나 오류를 보정하는 혼합형 N-best 품사 태깅 방법을 제안한다 제안된 N-best 품사 태거는 6만여 단어의 영어 코퍼스에서 실험한 결과, 단어 당 평균 1.09개의 품사를 할당할 때 0.43%의 오류율을 보인다.

  • PDF

Development of Subcategorization Dictionary for the Disambiguation Korean Language Analysis (한국어 분석의 중의성 해소를 위한 하위범주화 사전 구축)

  • Lee, Su-Seon;Park, Hyun-Jae;Woo, Yo-Seop
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10e
    • /
    • pp.257-264
    • /
    • 1999
  • 자연언어 처리에 있어 문장의 성분 구조를 파악하는 통사적 해석에서는 애매성 있는 결과가 많이 생성된다. 한국어의 경우 어순 등의 통사적 특성뿐 아니라 상황과 의미, 문맥이 문장의 분석에 더 중요한 역할을 하기 때문에 문맥 자유 문법에 의한 접근 방법만으로는 중의적 구조의 해결이 어렵다. 이는 또한 의미 분석시 애매성을 증가시키는 원인이 된다. 이러한 통사적, 의미적 중의성 해결을 위해 용언 중심의 하위범주화 사전을 구축하였다. 본 논문에서는 용언에 따라 제한될 수 있는 하위범주 패턴을 정의하고 패턴에 따라 하위범주 사전을 구축하였다. 하위범주화 사전에는 명사의 시소러스와 정합하여 보어를 선택 제한(Selectional Restriction)할 수 있도록 용언과 명사와의 의미적 연어 관계에 따라 의미마커를 부여했다. 말뭉치를 통해 수집된 용언 12,000여개를 대상으로 25,000여개의 하위범주 패턴을 구축하였고 이렇게 구축한 하위범주화 사전이 120,000여 명사에 대한 의미를 갖고 있는 계층 시소러스 의미 사전과 연동하도록 하였다. 또한 논문에서 구현된 하위범주화 사전이 구문과 어휘의 중의성을 어느 정도 해소하는지 확인하기 위해 반자동적으로 의미 태깅(Sense Tagging)된 2만여 문장의 말뭉치를 통해 검증 작업을 수행하고, 의존관계와 어휘의 의미를 포함하고 있는 말뭉치에 하위범주 패턴이 어느정도 정합되는지를 분석하여, 하위범주 패턴과 말뭉치의 의존관계만 일치하는 경우와 어휘의 의미까지 일치하는 경우에 대해 평가한다. 이 과정에서 하위범주 패턴에 대한 빈도 정보나, 연어 정보를 수집하여 데이터베이스에 포함시키고, 각 의미역과 용언의 통계적 공기 정보 등을 추출하는 방법도 제시하고자 한다.을 입증하였다.적응에 문제점을 가지기도 하였다. 본 연구에서는 그 동안 계속되어 온 한글과 한잔의 사용에 관한 논쟁을 언어심리학적인 연구 방법을 통해 조사하였다. 즉, 글을 읽는 속도, 글의 의미를 얼마나 정확하게 이해했는지, 어느 것이 더 기억에 오래 남는지를 측정하여 어느 쪽의 입장이 옮은 지를 판단하는 것이다. 실험 결과는 문장을 읽는 시간에서는 한글 전용문인 경우에 월등히 빨랐다. 그러나. 내용에 대한 기억 검사에서는 국한 혼용 조건에서 더 우수하였다. 반면에, 이해력 검사에서는 천장 효과(Ceiling effect)로 두 조건간에 차이가 없었다. 따라서, 본 실험 결과에 따르면, 글의 읽기 속도가 중요한 문서에서는 한글 전용이 좋은 반면에 글의 내용 기억이 강조되는 경우에는 한자를 혼용하는 것이 더 효율적이다.이 높은 활성을 보였다. 7. 이상을 종합하여 볼 때 고구마 끝순에는 페놀화합물이 다량 함유되어 있어 높은 항산화 활성을 가지며, 아질산염소거능 및 ACE저해활성과 같은 생리적 효과도 높아 기능성 채소로 이용하기에 충분한 가치가 있다고 판단된다.등의 관련 질환의 예방, 치료용 의약품 개발과 기능성 식품에 효과적으로 이용될 수 있음을 시사한다.tall fescue 23%, Kentucky bluegrass 6%, perennial ryegrass 8%) 및 white clover 23%를 유지하였다. 이상의 결과를 종합할 때, 초종과 파종비율에 따른 혼파초지의 건물수량과 사료가치의 차이를 확인할 수 있었으며, 레드 클로버 + 혼파 초지가 건물수량과 사료가치를 높이는데 효과적이었다.\ell}$ 이었으며 , yeast extract 첨가(添加)하여 배양시(培養時)는 yeast extract

  • PDF

Development and Automatic Extraction of Subcategorization Dictionary (하위범주화 사전의 구축 및 자동 확장)

  • 이수선;박현재;우요섭
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10b
    • /
    • pp.179-181
    • /
    • 2000
  • 한국어의 통사적, 의미적 중의성 해결을 위해 하위범주화 사전을 구축하였다. 용언에 따라 제한될 수 있는 문형 패턴과 의미역(semantic roles) 정보의 표준을 정하여 이를 부가하였고 구축한 하위범주화 사전이 명사에 대한 의미를 갖고 있는 계층 시소러스 의미사전과 연동하도록 용언과 명사와의 의미적 연어 관계에 따라 의미마커를 부여했다. 논문에서 구현된 하위범주화 사전이 구문과 어휘의 중의성을 어느 정도 해소하는지 확인하기 위해 반자동적으로 의미 태깅(Sense Tagging)된 말뭉치와 구문분석된 말뭉치를 통해 검증 작업을 수행했다. 이 과정에서 자동으로 하위범주 패턴에 대한 빈도 정보나, 연어정보, 각 의미역과 용언의 통계적 공기 정보 등을 추출하여 하위범주화사전에 추가시켰다. 또한 여기서 얻은 정보를 기준으로 하위범주화 사전을 자동으로 확장하는 알고리즘을 적용하여 확장시켰다.

  • PDF

Improvement of Korean Homograph Disambiguation using Korean Lexical Semantic Network (UWordMap) (한국어 어휘의미망(UWordMap)을 이용한 동형이의어 분별 개선)

  • Shin, Joon-Choul;Ock, Cheol-Young
    • Journal of KIISE
    • /
    • v.43 no.1
    • /
    • pp.71-79
    • /
    • 2016
  • Disambiguation of homographs is an important job in Korean semantic processing and has been researched for long time. Recently, machine learning approaches have demonstrated good results in accuracy and speed. Other knowledge-based approaches are being researched for untrained words. This paper proposes a hybrid method based on the machine learning approach that uses a lexical semantic network. The use of a hybrid approach creates an additional corpus from subcategorization information and trains this additional corpus. A homograph tagging phase uses the hypernym of the homograph and an additional corpus. Experimentation with the Sejong Corpus and UWordMap demonstrates the hybrid method is to be effective with an increase in accuracy from 96.51% to 96.52%.

A Development of the Automatic Predicate-Argument Analyzer for Construction of Semantically Tagged Korean Corpus (한국어 의미 표지 부착 말뭉치 구축을 위한 자동 술어-논항 분석기 개발)

  • Cho, Jung-Hyun;Jung, Hyun-Ki;Kim, Yu-Seop
    • The KIPS Transactions:PartB
    • /
    • v.19B no.1
    • /
    • pp.43-52
    • /
    • 2012
  • Semantic role labeling is the research area analyzing the semantic relationship between elements in a sentence and it is considered as one of the most important semantic analysis research areas in natural language processing, such as word sense disambiguation. However, due to the lack of the relative linguistic resources, Korean semantic role labeling research has not been sufficiently developed. We, in this paper, propose an automatic predicate-argument analyzer to begin constructing the Korean PropBank which has been widely utilized in the semantic role labeling. The analyzer has mainly two components: the semantic lexical dictionary and the automatic predicate-argument extractor. The dictionary has the case frame information of verbs and the extractor is a module to decide the semantic class of the argument for a specific predicate existing in the syntactically annotated corpus. The analyzer developed in this research will help the construction of Korean PropBank and will finally play a big role in Korean semantic role labeling.