• 제목/요약/키워드: 용언 격틀 정보

검색결과 15건 처리시간 0.02초

부트스트래핑 알고리즘을 이용한 한국어 격조사의 의미역 결정 (Bootstrapping for Semantic Role Assignment of Korean Case Marker)

  • 김병수;이용훈;나승훈;김준기;이종혁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 한국컴퓨터종합학술대회 논문집 Vol.33 No.1 (B)
    • /
    • pp.4-6
    • /
    • 2006
  • 본 논문은 자연언어처리에서 문장의 서술어와 그 서술어가 가지는 명사 논항들 사이의 문법관계를 의미 관계로 사상하는 즉 논항이 서술어에 대해 가지는 역할을 정하는 문제를 다루고 있다. 의미역 결정은 단어의 의미 중의성 해소와 함께 자연언어의 의미 분석의 핵심 문제 중 하나이며 반드시 해결해야 하는 매우 중요한 문제 중 하나이다. 본 연구에서는 언어학적으로 유용한 자원인 세종전자사전을 이용하여 용언격틀사전을 구축하고 격틀 선택 방법으로 의미역을 결정한 후. 결정된 의미역들에 대한 확률 정보를 확률 모델에 적용하여 반복적으로 학습하는 부트스트래핑(Bootstrapping) 알고리즘을 사용하였다. 실험 결과, 기본 모델에 대해 10% 정도의 성능 향상을 보였다.

  • PDF

인간언어공학에의 활용을 위한 이종 개념체계 간 사상 -세종의미부류와 KorLexNoun 1.5- (Mapping Heterogenous Hierarchical Concept Classifications for the HLP Applications -A case of Sejong Semantic Classes and KorLexNoun 1.5-)

  • 배선미;임경업;윤애선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2009년도 제21회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.6-13
    • /
    • 2009
  • 본 연구에서는 인간언어공학에서의 활용을 위해 세종전자사전의 의미부류와 KorLexNoun 1.5의 상위노드 간의 사상을 목표로 전문가의 수작업에 의한 세밀한 사상 방법론(fine-grained mapping method)을 제안한다. 또한 이질적인 두 이종 자원 간의 사상에 있어 각 의미체계의 이질성으로 인해 발생하는 여러 가지 문제점을 살펴보고, 그 해결방안을 제안한다. 본 연구는 세종의미부류체계가 밝히고자 했던 한국어의 의미구조와, Prinston WordNet을 참조로 하여 KorLexNoun에 여전히 영향을 미치고 있는 영어 의미구조를 비교함으로써 공통점과 차이점을 파악할 수 있고, 이를 바탕으로 언어 독립적인 개념체계를 구축하는 데 기여할 수 있다. 또한 향후 KorLex의 용언에 기술되어 있는 문형정보와 세종 전자사전의 용언의 격틀 정보를 통합 구축하여 구문분석에서 이용할 때, 세종 의미부류와 KorLexNoun의 상위노드를 통합 구축함으로써 논항의 일반화된 선택제약규칙의 기술에서 이용될 수 있다. 본 연구에서 제안된 사상방법론은 향후 이종 자원의 자동 사상 연구에서도 크게 기여할 것이다. 아울러 두 이종 자원의 사상을 통해 두 의미체계가 지닌 장점을 극대화하고, 동시에 단점을 상호 보완하여 보다 완전한 언어자원으로써 구문분석이나 의미분석에서 이용될 수 있다.

  • PDF

단위 명사간 보-술 관계를 이용한 한국어 복합 명사의 문장 복원 (Restoring Functional Word and Noun-Verb Syntactic Relations for Korean Compound Noun Analysis)

  • 양성일;김영길;서영애;박은진;나동렬
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2007년도 춘계학술발표대회
    • /
    • pp.694-695
    • /
    • 2007
  • 한국어 문장의 구성은 명사, 동사와 같은 내용어와 조사, 어미와 같은 기능어로 크게 나눌 수있다. 문장의 핵심적인 의미 전달은 내용어에 의해 이루어지며, 한국어 명사구의 경우 잦은 기능어의 생략으로 명사 나열에 의한 복합 명사가 발생된다. 이렇게 발생되는 복합 명사를 구성하는 단위 명사들은 일부 문장 성분을 생략시켜 발생된 것으로, 생략 성분의 복원에 의해 본래의 문장 형태를 추정할 수 있다. 한국어 복합 명사의 경우, 생략되는 문장 성분은 대부분 접사, 조사와 같은 기능어로 국한되며, 기능어의 복원은 단위 명사 간의 격 관계와 의미 관계를 분석하여 이루어질 수 있다. 본 논문에서는 단위 명사간의 보-술 관계를 이용하여 복합 명사를 구성하는 단위 명사 간의 의존 관계를 추정하고, 추정된 의존 관계에 의해 생략된 격조사와 용언화 접사를 복원하는 방법을 제안한다. 구조 분석에서 사용되는 의미 격틀에 의해 결정되는 격 관계는 격조사와 용언화 접사의 복원을 결정하며, 올바른 본래의 문장 표현 복원을 위해 관형격 조사와 관형격 어미를 비롯한 특별한 형태의 복원은 통계 정보와 휴리스틱 규칙으로 결정한다.

  • PDF

비지도 학습을 기반으로 한 한국어 부사격의 의미역 결정 (Unsupervised Semantic Role Labeling for Korean Adverbial Case)

  • 김병수;이용훈;이종혁
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제34권2호
    • /
    • pp.112-122
    • /
    • 2007
  • 말뭉치를 이용하여 통계적으로 의미역 결정(semantic role labeling)을 하기 위해서는, 의미역을 태깅하는 작업이 필수적이다. 그러나 한국어의 경우 의미역이 태깅된 대량의 말뭉치를 구하기 힘들며, 이를 직접 구축하기 위해서는 많은 시간과 노력이 필요한 문제점이 있다. 본 논문에서는 비지도 학습의 하나인 self-training 알고리즘을 적용하여, 의미역이 태깅되지 않은 말뭉치로부터 의미역을 결정하는 방법을 제안한다. 이를 위해, 세종 용언 전자사전의 격틀 정보를 이용하여 자동으로 학습 말뭉치를 구축하였으며, 확률 모델을 적용하여 점진적으로 학습하였다. 그 결과, 4개의 부사격 조사에 대해 평균적으로 83.00%의 정확률을 보였다.

명사 어휘의미망을 활용한 문법 검사기의 문맥 오류 결정 규칙 일반화 (Generalization of error decision rules in a grammar checker using Korean WordNet, KorLex)

  • 소길자;이승희;권혁철
    • 정보처리학회논문지B
    • /
    • 제18B권6호
    • /
    • pp.405-414
    • /
    • 2011
  • 국내에서 가장 일반적으로 사용되고 있는 규칙 기반 오류 검출 방법은 언어 전문가가 한국어 문서에서 자주 발생하는 오류에 대한 검출 규칙을 경험적으로 구축하고 있다. 그러나 이렇게 경험적으로 규칙을 만들면 새로운 패턴의 문장이 나타날 때마다 규칙이 수정되어야 하므로 일관성 있는 오류 검사 및 교정을 기대할 수 없다. 본 논문에서는 이를 해결하려고 최근 개발되고 있는 어휘의미망 중에서 KorLex와 같은 정규화된 언어 자원을 활용하여 단어들의 범주 정보를 추출하고 이를 이용하여 오류 결정 규칙을 일반화한다. 그러나 현재 구축된 KorLex에는 명사의 계층관계 정보는 구축되어 있지만, 문장 요소와의 관계 정보, 즉, 격틀 정보가 부족하다. 본 논문에서는 용언 의미 오류 결정 규칙으로 사용할 선택제약 명사 클래스를 정보이론에 기초한 MDL과 Tree Cut Model을 활용하여 추출하고 이러한 선택제약 명사 클래스를 사용하여 문법 검사기 규칙을 일반화하는 방안을 제안한다. 실험 결과, 혼동하기 쉬운 네 개의 용언에 대해 목적어로 사용된 명사를 선택제약 명사 클래스로 일반화하여 문법 검사기 오류 결정 규칙 수를 평균 64.8%로 줄였고 기존 명사를 사용한 문법 검사기보다 정확도 측면에서 평균 약 6.2%정도 향상된 결과를 얻을 수 있었다.