• 제목/요약/키워드: subcategorization

검색결과 31건 처리시간 0.018초

영어 동사의 의미적 유사도와 논항 선택 사이의 연관성 : ICE-GB와 WordNet을 이용한 통계적 검증 (The Strength of the Relationship between Semantic Similarity and the Subcategorization Frames of the English Verbs: a Stochastic Test based on the ICE-GB and WordNet)

  • 송상헌;최재웅
    • 한국언어정보학회지:언어와정보
    • /
    • 제14권1호
    • /
    • pp.113-144
    • /
    • 2010
  • The primary goal of this paper is to find a feasible way to answer the question: Does the similarity in meaning between verbs relate to the similarity in their subcategorization? In order to answer this question in a rather concrete way on the basis of a large set of English verbs, this study made use of various language resources, tools, and statistical methodologies. We first compiled a list of 678 verbs that were selected from the most and second most frequent word lists from the Colins Cobuild English Dictionary, which also appeared in WordNet 3.0. We calculated similarity measures between all the pairs of the words based on the 'jcn' algorithm (Jiang and Conrath, 1997) implemented in the WordNet::Similarity module (Pedersen, Patwardhan, and Michelizzi, 2004). The clustering process followed, first building similarity matrices out of the similarity measure values, next drawing dendrograms on the basis of the matricies, then finally getting 177 meaningful clusters (covering 437 verbs) that passed a certain level set by z-score. The subcategorization frames and their frequency values were taken from the ICE-GB. In order to calculate the Selectional Preference Strength (SPS) of the relationship between a verb and its subcategorizations, we relied on the Kullback-Leibler Divergence model (Resnik, 1996). The SPS values of the verbs in the same cluster were compared with each other, which served to give the statistical values that indicate how much the SPS values overlap between the subcategorization frames of the verbs. Our final analysis shows that the degree of overlap, or the relationship between semantic similarity and the subcategorization frames of the verbs in English, is equally spread out from the 'very strongly related' to the 'very weakly related'. Some semantically similar verbs share a lot in terms of their subcategorization frames, and some others indicate an average degree of strength in the relationship, while the others, though still semantically similar, tend to share little in their subcategorization frames.

  • PDF

하위범주화에 의한 한국어 파싱 설계 (A Design of Korean Language Parsing based on Subcategorization)

  • 이호석
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2008년도 한국컴퓨터종합학술대회논문집 Vol.35 No.1 (C)
    • /
    • pp.242-247
    • /
    • 2008
  • 본 논문은 하위범주화에 의한 한국어 파싱의 설계를 논의한다. 우선, 기계 번역에 중요한 영향을 끼치는 한국어 문법구성 요소인 통사 범주, 조사, 어미, 통사적 접사, 의존 명사 등을 논의하고 하위 범주화와 표현 패턴을 논의한다. 다음에 간단한 한국어 파서의 기본 골격을 제시한다. 첫 번째 과정은 입력 단계로서 문장을 스캐닝(scanning) 하고 관사, 명사, 수사, 통사적 접사, 조사, 의존 명사, 어미활용, 형용사, 부사, 조동사 들을 처리한다. 두 번째 과정에서는 하위범주화 패턴과 표현 패턴을 처리한다. 세 번째 단계에서는 절을 처리하고, 네 번째 단계에서는 SEA(Sentence Ending+Auxiliary)를 처리한다.

  • PDF

시로러스와 하위범주와 사전을 이용한 격모호성 해결 (Case Ambiguity Resolution using Thesaurus and subcategorization Information)

  • 양재형;심광섭
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제26권9호
    • /
    • pp.1132-1140
    • /
    • 1999
  • 한국어에서 보조사로 인해 발생하는 격 모호성(case ambiguity) 문제를 해결하는 알고리즘을 개발하였다. 이 알고리즘은 용언의 하위범주화 사전, 용언과 그 용언의 보어가 되는 체언간의 선택 제약, 체언의 의미 정보를 제공하는 시소러스 등의 구문.의미 지식과 더불어 몇 가지의 휴리스틱 규칙을 이용하며, 필수 보어의 생략이 흔한 한국어의 특성에 잘 대응한다. 중규모의 하위범주화 사전 및 시소러스를 이용한 실험에서 만족할 만한 성능을 보였다.Abstract An algorithm is proposed for the resolution of case ambiguity caused by the use of auxiliary postpositions in Korean language. The algorithm utilizes verb dictionary which provides subcategorization information and selectional restrictions, and the thesaurus as well as a set of simple heuristic rules. The algorithm is appropriate for Korean language where required complements are often omitted. The algorithm performed successfully in an experiment using medium-sized subcategorization dictionary and thesaurus.

하위범주화에 의한 한국어 파서의 설계와 구현 : I (A Design & Implementation of Korean Parser using Subcategorization: I)

  • 이호석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2008년도 제20회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.1-4
    • /
    • 2008
  • 본 논문에서는 의존 문법, 하위범주화, 그리고 조사와 어미의 분석과 처리에 기반 한 한국어 파서를 제시하고 논의한다. 의존 문법과 하위범주화는 BNF(Backus Naur Form)를 확장한 형식을 사용하여 정의하였다. 논문에서 한국어 파서의 개념적 기본 구도를 C 프로그램 형식을 사용하여 나타내었다. 현재 구현된 한국어 파서의 구성을 설명하고 실행결과를 보여준다.

  • PDF

시소러스와 술어 패턴을 이용한 의미역 부착 한국어 하위범주화 사전의 구축 (Constructing a Korean Subcategorization Dictionary with Semantic Roles using Thesaurus and Predicate Patterns)

  • 양승현;김영섬;우요섭;윤덕호
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제6권3호
    • /
    • pp.364-372
    • /
    • 2000
  • 하위범주화는 보어의 어휘 개념이 명시된 술어와 보어간 의존 관계를 정의하는 언어 정보로서 구문 및 의미 분석 등에 폭넓게 활용될 수 있는 기반 언어 자원이라는 데에 그 중요성이 있다. 본 논문에서는 표층문에서 통상 격표지로 표현되는 구문적 의존 관계뿐만 아니라, 보어가 갖는 의미역 정보가 부착되어 있으며 시소러스 개념 분류 체계와 연동 가능한 한국어 술어의 하위범주화 사전의 구축에 대해 설명하고 있다. 본 논문에서는 하위범주화 사전의 의미역 표현을 위해 총 25개의 의미역을 설정하고 있다. 이 의미역은 표층 격표지와 직접 연관되어 있기 때문에 통사적인 분석으로부터 직접 의미역 정보를 추출해서 의미 구조의 해석에 이용하는 것이 가능하다. 또한 명사 보어가 갖는 개념의 표현을 위해 상ㆍ하위어 관계를 갖는 12만 어휘 규모의 시소러스를 이용하고 있으며, 술어의 의존 관계 표현을 위해 동사, 형용사에 대해 각각 47, 17 개의 하위범주화 패턴을 이용하고 있다. 실용적 규모의 시소러스를 이용함으로써 문장에 나타난 명사의 시소러스 개념을 그대로 하위범주화 사전에 적용시켜 의미 정합 여부를 판단할 수 있는 실질적인 선택제약 체계를 구성할 수 있었고, 표층 격표지에 기초한 표준화된 술어 패턴을 이용함으로써 의미역의 결정 등에서 야기될 수 있는 비일관성을 방지하고 구축에 드는 비용을 절감할 수 있었다. 이상과 같은 방법으로 말뭉치에서 추출한 고빈도 술어 13,000 여개에 대해 하위범주화 사전을 구축하였으며, 적용 범위 평가 실험에 의하면 이 하위범주화 사전은 말뭉치에서 발견된 술어의 72.7%에 대해 하위범주화 정보를 제공할 수 있음을 확인하였다.

  • PDF

자동요약의 주제어 추출을 위한 의미사전의 동적 확장 (Dynamic Expansion of Semantic Dictionary for Topic Extraction in Automatic Summarization)

  • 추교남;우요섭
    • 전기전자학회논문지
    • /
    • 제13권2호
    • /
    • pp.241-247
    • /
    • 2009
  • 본 논문에서는 자동문서요약 시스템에서 정확하고 실용적인 주제어 추출을 위하여 한국어의 의미론적 특성을 고려한 의미사전의 확장 방법론에 대하여 논하고자 한다. 첫째로 동의어 사전을 통하여 의미표지 분석의 정확도를 높이고자 한다. 둘째로 하위범주화사전에 가중치를 부여하여 구문과 의미 분석에서 가장 올바른 분석 결과를 결정하는 참조 정보로 활용하고자 한다. 셋째로 미등록 용언의 하위범주화패턴 예측을 통하여 한국어에서 접사 파생되는 용언에 대하여 원활한 의미 분석을 수행할 수 있도록 한다.

  • PDF

의사소통 능력을 높여주는 어휘 지도에 대한 연구: 동사를 중심으로 (A study on vocabulary instruction to improve English communicative competence: Focus on English verbs)

  • 김부자
    • 영어어문교육
    • /
    • 제12권1호
    • /
    • pp.131-158
    • /
    • 2006
  • The purpose of the present study is to explore an effective way of teaching English vocabulary which is geared toward improving students' English communicative competence. This study focuses on English verbs, which may be followed by patterns according to subcategorization. Learning verbs must include learning about patterns as well as meaning in order to improve the ability to use verbs receptively and productively, or communicative competence. On the basis of the language progression proposed by Willis (2003), a teaching strategy which helps learners learn English verb patterns effectively and systematically was proposed. The effect of the teaching strategy was investigated. The subjects of the experimental group who learned English verb patterns intentionally through the teaching strategy proposed by this study significantly improved themselves in the ability to use them receptively and productively. This result shows that the teaching strategy including improvisation, recognition, rehearsal, system building, exploration and consolidation is helpful to improving communicative competence.

  • PDF

격틀 사전과 하위 범주 정보를 이용한 한국어 의미역 결정 (Korean Semantic Role Labeling Using Case Frame Dictionary and Subcategorization)

  • 김완수;옥철영
    • 정보과학회 논문지
    • /
    • 제43권12호
    • /
    • pp.1376-1384
    • /
    • 2016
  • 기계가 사람과 같이 문장을 처리하게 하려면 사람이 쓴 문장을 토대로 사람이 문장을 통해 발현하는 모든 문장의 표현 양상을 학습해 사람처럼 분석하고 처리할 수 있어야 한다. 이를 위해 기본적으로 처리되어야 할 부분은 언어학적인 정보처리이다. 언어학에서 통사론적으로 문장을 분석할 때 필요한 것이 문장을 성분별로 나눌 수 있고, 문장의 핵심인 용언을 중심으로 필수 논항을 찾아 해당 논항이 용언과 어떤 의미역 관계를 맺고 있는지를 파악할 수 있어야 한다. 본 연구에서는 국립국어원 표준국어대사전을 기반으로 구축한 격틀사전과 한국어 어휘 의미망에서 용언의 하위 범주를 자질로 구축한 CRF 모델을 적용하여 의미역을 결정하는 방법을 사용하였다. 문장의 어절, 용언, 격틀사전, 단어의 상위어 정보를 자질로 구축한 CRF 모델을 기반으로 하여 의미역을 자동으로 태깅하는 실험을 한 결과 정확률이 83.13%로 기존의 규칙 기반 방법을 사용한 의미역 태깅 결과의 정확률 81.2%보다 높은 성능을 보였다.

자연어 처리를 위한 의존 명사 하위 범주 분류 (Subcategorization of Dependent Nouns for NLP)

  • 유재원
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.136-142
    • /
    • 1997
  • 의존 명사와 이를 꾸미는 관형어는 통사적으로 긴밀한 언어학적 단위를 이루므로 의존 명사에 대한 하위 범주 분류는 한국어 자연어 처리에 있어서 중요하다. 그러나 기존 국어 문법에서는 이 문제가 일관성 있게 다루어지지 않았다. 이 논문에서는 국어 사전(조재수 1997)에 올라 있는 의존 명사 600여 개를 허웅(1996)의 분류 기준을 보완하여 일관성 있게 하위 범주 분류를 시도하였다. 또 수량 단위 명사는 앞에 오는 수사의 종류에 따라 더 세분하였다.

  • PDF