• Title/Summary/Keyword: 어휘 부류

Search Result 20, Processing Time 0.033 seconds

A Development of the Automatic Predicate-Argument Analyzer for Construction of Semantically Tagged Korean Corpus (한국어 의미 표지 부착 말뭉치 구축을 위한 자동 술어-논항 분석기 개발)

  • Cho, Jung-Hyun;Jung, Hyun-Ki;Kim, Yu-Seop
    • The KIPS Transactions:PartB
    • /
    • v.19B no.1
    • /
    • pp.43-52
    • /
    • 2012
  • Semantic role labeling is the research area analyzing the semantic relationship between elements in a sentence and it is considered as one of the most important semantic analysis research areas in natural language processing, such as word sense disambiguation. However, due to the lack of the relative linguistic resources, Korean semantic role labeling research has not been sufficiently developed. We, in this paper, propose an automatic predicate-argument analyzer to begin constructing the Korean PropBank which has been widely utilized in the semantic role labeling. The analyzer has mainly two components: the semantic lexical dictionary and the automatic predicate-argument extractor. The dictionary has the case frame information of verbs and the extractor is a module to decide the semantic class of the argument for a specific predicate existing in the syntactically annotated corpus. The analyzer developed in this research will help the construction of Korean PropBank and will finally play a big role in Korean semantic role labeling.

Semantic Clustering of Predicates using Word Definition in Dictionary (사전 뜻풀이를 이용한 용언 의미 군집화)

  • Bae, Young-Jun;Choe, Ho-Seop;Song, Yoo-Hwa;Ock, Cheol-Young
    • Korean Journal of Cognitive Science
    • /
    • v.22 no.3
    • /
    • pp.271-298
    • /
    • 2011
  • The lexical semantic system should be built to grasp lexical semantic information more clearly. In this paper, we studied a semantic clustering of predicates that is one of the steps in building the lexical semantic system. Unlike previous studies that used argument of subcategorization(subject and object), selectional restrictions and interaction information of adverb, we used sense tagged definition in dictionary for the semantic clustering of predicate, and also attempted hierarchical clustering of predicate using the relationship between the generic concept and the specific concept. Most of the predicates in the dictionary were used for clustering. Total of 106,501 predicates(85,754 verbs, 20,747 adjectives) were used for the test. We got results of clustering which is 2,748 clusters of predicate and 130 recursive definition clusters and 261 sub-clusters. The maximum depth of cluster was 16 depth. We compared results of clustering with the Sejong semantic classes for evaluation. The results showed 70.14% of the cohesion.

  • PDF

Korean Electronic Dictionary of Encyclopedic Nouns I. - Nouns related to Human Names - (검색 엔진을 위한 '백과 명사' 전자 사전의 구축 (I) <인명 관련 백과 명사의 연구>)

  • Nam, Jee-Sun;Lee, Ju-Ho;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 1998.10c
    • /
    • pp.304-315
    • /
    • 1998
  • 정보 검색 시스템에서 가장 문제가 되는 어휘 클라스는 소위 '고유 명사'와 '합성 명사'로 분류되는 명사 유형이다. 이들 클라스는, 기존 대사전 및 전자 사전 (MRD)류에서, 그 어휘 목록을 체계적으로 제공하지 못하는 가장 대표적인 부류들인데, 실제 검색 시스템에서는 많은 경우 정보의 핵심어 (Key Word)가 된다. 본 연구에서는 신문, 잡지등 시사 문서류에서 가장 빈번히 발견되는 명사 유형의 하나인, '인명 관련 고유 명사' 유형에 대한 문제에 그 논의의 촛점을 두고, 이들 명사들의 체계적인 처리를 위해서 어떠한 형태로 사전을 구성해야 하는지를 검토할 것이다. '고유 명사'라는 개념 자체가 지니고 있는 외연적 정의상의 문제점을 극복하기 위해서 우리는 '백과 명사 (Encyclopedic Noun)'라는 용어를 사용하기로 하며, 이는 좁은 의미의 고유 명사 및, 전문어, 고유 명사 관련 파생-복합어류 등을 포함하는, 보다 확장된 개념으로 이해되어야 한다. <인명> 관련 백과 명사류의 하위 유형 분류 및 그 특징적 결합어 형태(Appropriate Particle)에 대한 연구 결과들이 소개된다.

  • PDF

Two-Level Part-of-Speech Tagging for Korean Text Using Hidden Markov Model (은닉 마르코프 모델을 이용한 두단계 한국어 품사 태깅)

  • Lee, Sang-Zoo;Lim, Heui-Suk;Rim, Hae-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 1994.11a
    • /
    • pp.305-312
    • /
    • 1994
  • 품사 태깅은 코퍼스에 정확한 품사 정보를 첨가하는 작업이다. 많은 단어는 하나 이상의 품사를 갖는 중의성이 있으며, 품사 태깅은 지역적 문맥을 이용하여 품사 중의성을 해결한다. 한국어에서 품사 중의성은 다양한 원인에 의해서 발생한다. 일반적으로 동형 이품사 형태소에 의해 발생되는 품사 중의성은 문맥 확률과 어휘 확률에 의해 해결될 수 있지만, 이형 동품사 형태소에 의해 발생되는 품사 중의성은 상호 정보나 의미 정보가 있어야만 해결될 수 있다. 그리나, 기존의 한국어 품사 태깅 방법은 문맥 확률과 어휘 확률만을 이용하여 모든 품사 중의성을 해결하려 하였다. 본 논문은 어절 태깅 단계에서는 중의성을 최소화하고, 형태소 태깅 단계에서는 최소화된 중의성 중에서 하나를 결정하는 두단계 태깅 방법을 제시한다. 제안된 어절 태깅 방법은 단순화된 어절 태그를 이용하므로 품사 집합에 독립적이면, 대량의 어절을 소량의 의사 부류에 사상하므로 통계 정보의 양이 적다. 또한, 은닉 마르코프 모델을 이용하므로 태깅되지 않은 원시 코퍼스로부터 학습이 가능하며, 적은 수의 파라메터와 Viterbi 알고리즘을 이용하므로 태깅 속도가 효율적이다.

  • PDF

Automatic Text Summarization using Noun-Verb Cooccurrence Pattern (명사-동사 공기패턴을 이용한 문서 자동 요약)

  • Nam, Ki-Jong;Lee, Chang-Beom;Kang, Dae-Wook;Park, Hyuk-Ro
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.11a
    • /
    • pp.611-614
    • /
    • 2002
  • 문서 자동 요약은 입력된 문서에 대해 컴퓨터가 자동으로 요약을 생성하는 과정을 의미한다. 즉, 컴퓨터가 문서의 기본적인 내용을 유지하면서 문서의 복잡도 즉 문서의 길이를 줄이는 작업이다. 효율적인 정보 접근을 제공함과 동시에 정보 과적재를 해결하기 위한 하나의 방법으로 문서 자동요약에 관한 연구가 활발히 진행되고 있다. 본 논문의 목적은 어휘 연관성 정보를 이용하여 한국어 문서를 자동으로 요약하는 효율적이며 효과적인 모형을 개발하는 것이다. 제안한 방법에서는 신문기사와 같은 특정 부류에 국한되는 단어간의 어휘연관성을 이용하여 명사-명사 공기패턴과 명사-동사 공기패턴을 구축하여 문서요약에 이용한다. 크게 불용어 처리 단계, 공기패턴 구축 단계, 문장 중요도 계산 단계, 요약 생성단계의 네 단계로 나누어 요약을 생성한다. 30% 중요문장 추출된 신문기사를 대상으로 평가한 결과 명사-명사 공기패턴과 빈도만을 이용한 방법보다 명사-동사 공기패턴을 이용한 방법이 좋은 결과를 가져 왔다.

  • PDF

분류사와 명사 의미 부류

  • Choi, Min-Oo;Kang, Bum-Mo
    • Annual Conference on Human and Language Technology
    • /
    • 2000.10d
    • /
    • pp.395-401
    • /
    • 2000
  • 국어에서는 어떠한 대상 의 수량을 표현할 때 수사와 함께 분류사(classifier)를 사용한다. 따라서 분류사는 그 특성상 수량 표현 구문을 형성하는 대상 명사와 의미적으로 밀접한 관련을 지니게 되는데, 단순히 명사를 셈하는 것 뿐 아니라 명사의 의미적 특성을 명세(specify)해 준다고 할 수 있다. 본 연구에서는 이러한 명사와 분류사의 연관성에 초점을 맞추어 분류사의 사용에 따른 명사의 범주화 및 계층 구조를 보이고, 컴퓨터 말뭉치 자료를 이용하여 그 관계를 좀더 명확히 밝히는 것을 목적으로 한다. 이러한 연구는 언어를 전산적으로 처리하는데 필수적인 전산어휘부(computational lexicon)의 구축에 필요한 기초 작업이 될 수 있다.

  • PDF

Recognition Of Chinese Named-Entity Using Support Vector Machine (SVM을 이용한 중국어 개체명 식별)

  • Jin, Feng;Na, Seung-Hoon;Kang, In-Su;Li, Jin-Ji;Kim, Dong-Il;Lee, Jong-Hyeok
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.934-936
    • /
    • 2004
  • 본문에서는 최근 들어 각광을 받고 있는 패턴인식 방법론인 Support Vector Machine을 이용하여 중국어 개체명을 식별하는 방법을 제안하고자 한다. SVM(support vector machine)은 입력 자질이 많을 경우에도 안정적인 성능을 나타내고 보편적으로 적용할 수 있는 모델을 개발할 수 있는 장점이 있다. 실험에서 어휘. 품사, 의미부류 등 많은 수의 자질을 이용하였다. 실험결과는 본문에서 제안한 방법이 튜닝을 거치지 않아도 좋은 성능을 나타낼 수 있고, 수행 속도도 만족스럽다는 것을 보여주었다.

  • PDF

The Construction of Semantic Networks for Korean "Cooking Verb" Based on the Argument Information. (논항 정보 기반 "요리 동사"의 어휘의미망 구축 방안)

  • Lee, Sukeui
    • Korean Linguistics
    • /
    • v.48
    • /
    • pp.223-268
    • /
    • 2010
  • The purpose of this paper is to build a semantic networks of the 'cooking class' verb (based on 'CoreNet' of KAIST). This proceedings needs to adjust the concept classification. Then sub-categories of [Cooking] and [Foodstuff] hierarchy of CoreNet was adjusted for the construction of verb semantic networks. For the building a semantic networks, each meaning of 'Cooking verbs' of Korean has to be analyzed. This paper focused on the Korean 'heating' verbs and 'non-heating'verbs. Case frame structure and argument information were inserted for the describing verb information. This paper use a Propege 3.3 as a tool for building "cooking verb" semantic networks. Each verb and noun was inserted into it's class, and connected by property relation marker 'HasThemeAs', 'IsMaterialOf'.

Mapping Heterogenous Ontologies for the HLP Applications - Sejong Semantic Classes and KorLexNoun 1.5 - (인간언어공학에의 활용을 위한 이종 개념체계 간 사상 - 세종의미부류와 KorLexNoun 1.5 -)

  • Bae, Sun-Mee;Im, Kyoung-Up;Yoon, Ae-Sun
    • Korean Journal of Cognitive Science
    • /
    • v.21 no.1
    • /
    • pp.95-126
    • /
    • 2010
  • This study proposes a bottom-up and inductive manual mapping methodology for integrating two heterogenous fine-grained ontologies which were built by a top-down and deductive methodology, namely the Sejong semantic classes (SJSC) and the upper nodes in KorLexNoun 1.5 (KLN), for HLP applications. It also discusses various problematics in the mapping processes of two language resources caused by their heterogeneity and proposes the solutions. The mapping methodology of heterogeneous fine-grained ontologies uses terminal nodes of SJSC and Least Upper Bounds (LUB) of KLN as basic mapping units. Mapping procedures are as follows: first, the mapping candidate groups are decided by the lexfollocorrelation between the synsets of KLN and the noun senses of Sejong Noun Dfotionaeci(SJND) which are classified according to SJSC. Secondly, the meanings of the candidate groups are precisely disambiguated by linguistic information provided by the two ontologies, i.e. the hierarchicllostructures, the definitions, and the exae les. Thirdly, the level of LUB is determined by applying the appropriate predicates and definitions of SJSC to the upper-lower and sister nodes of the candidate LUB. Fourthly, the mapping possibility ic inthe terminal node of SJSC is judged by che aring hierarchicllorelations of the two ontologies. Finally, the ituorrect synsets of KLN and terminologiollocandidate groups are excluded in the mapping. This study positively uses various language information described in each ontology for establishing the mapping criteria, and it is indeed the advantage of the fine-grained manual mapping. The result using the proposed methodology shows that 6,487 LUBs are mapped with 474 terminal and non-terminal nodes of SJSC, excluding the multiple mapped nodes, and that 88,255 nodes of KLN are mapped including all lower-level nodes of the mapped LUBs. The total mapping coverage is 97.91% of KLN synsets. This result can be applied in many elaborate syntactic and semantic analyses for Korean language processing.

  • PDF

Zur Valenz deutscher verbaler Somatismen mit der Komponente ${\lceil}hand{\rfloor}$ (독일어의 신체부위 "손" 관련 관용구의 결합가 연구)

  • Kim Soo-Nam
    • Koreanishche Zeitschrift fur Deutsche Sprachwissenschaft
    • /
    • v.4
    • /
    • pp.1-27
    • /
    • 2001
  • 이 글의 목적은 독일어 신체어휘 관련 관용구들 가운데 ${\lceil}$Duden Band 11${\rfloor}$에 수록된 108개의 $\lceil$$\rfloor$ 관련 관용구를 대상으로 이들의 형태$\cdot$통사구조를 파악하고, 그들을 모형화하는 것이다. 우리는 연구 대상을 문장에서 결합가 보유어로서 술어의 기능을 하는 관용구에 한정했다. 우리는 $\lceil$$\rfloor$ 관련 관용구를 보충어의 수와 형태에 따라 크게 세 가지 부류, 즉 1가, 2가, 3가의 관용구로 구분하였다 보충어의 형태는 명사구(Sn, Sd, Sa)와 전치사구(pS)에 한정했으며 문장형태의 보충어, 예를 들어 부문장(NS)과 부정사문(Inf) 형태는 고려하지 않았다. 이들이 보충어로 간주될 수 있는지의 여부는 아직 더 많은 연구를 필요로 하기 때문에 다음 과제로 남겨두었다. 일차적으로 외적 결합가($\"{a}u{\beta}ere\;Valenz)$에 따라, 이차적으로는 내적 결합가(innere Valenz)에 따라 108개의 $\lceil$$\rfloor$ 관련 관용구를 분석한 결과 우리는 다음과 같은 형태$\cdot$통사적 문형을 얻을 수 있었다. $\cdot$ 1가 동사 관용구: 1) PL-Sn : (1) PL[VPL - Sa] - Sn (2) PL(VPL - pS) - Sn (3) PL[VPL - Sa - pS] - Sn (4) PL[VPL - pS - pS] - Sn Sondergruppen: PL[VPL - Sa - Inf] - Sn PL[VPL - pS - Inf] - Sn 2) PL - Sd: (1) PL[VPL - Sn] - Sd (2) PL[VPL - Sn(es) - pS] - Sd $\cdot$ 2가 동사 관용구1) PL - Sn - Sd: (1) PL[VPL - Sa] - Sn - Sd (2) PL[VPL - pS] - Sn - Sd (3) PL[VPL - Sa - pS) - Sn - Sd 2) PL - Sn - pS: (1) PL[VPL - Sa] - Sn - pS (2) PL[VPL - pS] - Sn - pS (3) PL(VPL - Sa - pS) - Sn - pS 3) PL[VPL - pS) - Sn -Sa $\cdot$ 3가 동사 관용구: (1) PL[VPL - pS] - Sn - Sd - Sa (2) PL[VPL - pS] - Sn - Sa - pS (3) PL[VPL - Sa] - Sn - Sd - pS 이러한 분류가 보여주듯이, 독일어에는 1가, 2가, 3가의 관용구가 있으며, 구조 외적으로 동일한 통사적 결합가를 갖는다 하더라도 구조 내적 성분구조가 다르다는 것을 알 수 있다. 우리는 이 글이 외국어로서의 독일어를 배우는 이들에게 독일어의 관용구를 보다 올바르게 이해할 수 있는 방법론적인 토대를 제공함은 물론, (관용어) 사전에서 외국인 학습자를 고려하여 관용구를 알기 쉽게 기술하는 데 도움을 줄 수 있기를 바란다.

  • PDF