• Title/Summary/Keyword: 의미역 인식

Search Result 158, Processing Time 0.019 seconds

A Study of Semantic Role Labeling using Domain Adaptation Technique for Question (도메인 적응 기술 기반 질문 문장에 대한 의미역 인식 연구)

  • Lim, Soojong;Kim, Hyunki
    • Annual Conference on Human and Language Technology
    • /
    • 2015.10a
    • /
    • pp.246-249
    • /
    • 2015
  • 기계학습 방법에 기반한 자연어 분석은 학습 데이터가 필요하다. 학습 데이터가 구축된 소스 도메인이 아닌 다른 도메인에 적용할 경우 한국어 의미역 인식 기술은 10% 정도 성능 하락이 발생한다. 본 논문은 기존 도메인 적응 기술을 이용하여 도메인이 다르고, 문장의 형태도 다를 경우에 도메인 적응 알고리즘을 적용하여, 질의응답 시스템에서 필요한 질문 문장 의미역 인식을 위해, 소규모의 질문 문장에 대한 학습 데이터 구축만으로도 한국어 질문 문장에 대해 성능을 향상시키기 위한 방법을 제안한다. 한국어 의미역 인식 기술에 prior 모델을 제안한다. 제안하는 방법은 실험결과 소스 도메인 데이터만 사용한 실험보다 9.42, 소스와 타겟 도메인 데이터를 단순 합하여 학습한 경우보다 2.64의 성능향상을 보였다.

  • PDF

A Study of Korean Semantic Role Labeling using Word Sense (의미 정보를 이용한 한국어 의미역 인식 연구)

  • Lim, Soojong;Kim, Hyunki
    • Annual Conference on Human and Language Technology
    • /
    • 2015.10a
    • /
    • pp.18-22
    • /
    • 2015
  • 기계학습 기반의 의미역 인식에서 주로 어휘, 구문 정보가 자질로 주로 쓰이지만, 의미 정보를 분석하는 의미역 인식은 단어의 의미 정보 또한 매우 주요한 정보이다. 그러나, 기존 연구에서는 의미 정보를 활용할 수 있는 방법이 제한되어 있기 때문에, 소수의 연구만 진행되었다. 본 논문에서는 동형이의어 수준의 의미 애매성 해소 기술, 고유 명사에 대한 개체명 인식 기술, 의미 정보에 기반한 필터링, 유의어 사전을 이용한 클러스터 및 기존 프레임 정보를 확장하는 방법을 제안한다. 제안하는 방법은 기존 연구 대비 뉴스 도메인인 Korean Propbank는 3.14, 위키피디아 문서 기반의 WiseQA 평가셋인 GS 3.0에서는 6.57의 성능 향상을 보였다.

  • PDF

Korean Semantic Role Labeling Using Structured SVM (Structural SVM 기반의 한국어 의미역 결정)

  • Lee, Changki;Lim, Soojong;Kim, Hyunki
    • Journal of KIISE
    • /
    • v.42 no.2
    • /
    • pp.220-226
    • /
    • 2015
  • Semantic role labeling (SRL) systems determine the semantic role labels of the arguments of predicates in natural language text. An SRL system usually needs to perform four tasks in sequence: Predicate Identification (PI), Predicate Classification (PC), Argument Identification (AI), and Argument Classification (AC). In this paper, we use the Korean Propbank to develop our Korean semantic role labeling system. We describe our Korean semantic role labeling system that uses sequence labeling with structured Support Vector Machine (SVM). The results of our experiments on the Korean Propbank dataset reveal that our method obtains a 97.13% F1 score on Predicate Identification and Classification (PIC), and a 76.96% F1 score on Argument Identification and Classification (AIC).

Korean Semantic Role Labeling Using Domain Adaptation Technique (도메인 적응 기술을 이용한 한국어 의미역 인식)

  • Lim, Soojong;Bae, Yongjin;Kim, Hyunki
    • Annual Conference on Human and Language Technology
    • /
    • 2014.10a
    • /
    • pp.56-60
    • /
    • 2014
  • 기계학습 방법에 기반한 자연어 분석은 학습 데이터가 필요하다. 학습 데이터가 구축된 소스 도메인이 아닌 다른 도메인에 적용할 경우 한국어 의미역 인식 기술은 15% 정도 성능 하락이 발생한다. 본 논문은 이러한 다른 도메인에 적용시 발생하는 성능 하락 현상을 극복하기 위해서 기존의 소스 도메인 학습 데이터를 활용하여, 소규모의 타겟 도메인 학습 데이터 구축만으로도 성능 하락을 최소화하기 위해 한국어 의미역 인식 기술에 prior 모델을 제안하며 기존의 도메인 적응 알고리즘과 비교 실험하였다. 추가적으로 학습 데이터에 사용되는 자질 중에서, 형태소 태그와 구문 태그의 자질 값을 기존보다 단순하게 적용하여 성능의 변화를 실험하였다.

  • PDF

Korean Semantic Role Labeling Using Semantic Frames and Synonym Clusters (의미 프레임과 유의어 클러스터를 이용한 한국어 의미역 인식)

  • Lim, Soojong;Lim, Joon-Ho;Lee, Chung-Hee;Kim, Hyun-Ki
    • Journal of KIISE
    • /
    • v.43 no.7
    • /
    • pp.773-780
    • /
    • 2016
  • Semantic information and features are very important for Semantic Role Labeling(SRL) though many SRL systems based on machine learning mainly adopt lexical and syntactic features. Previous SRL research based on semantic information is very few because using semantic information is very restricted. We proposed the SRL system which adopts semantic information, such as named entity, word sense disambiguation, filtering adjunct role based on sense, synonym cluster, frame extension based on synonym dictionary and joint rule of syntactic-semantic information, and modified verb-specific numbered roles, etc. According to our experimentations, the proposed present method outperforms those of lexical-syntactic based research works by about 3.77 (Korean Propbank) to 8.05 (Exobrain Corpus) F1-scores.

Korean Sematic Role Labeling Using CRFs (CRFs 기반의 한국어 의미역 결정)

  • Park, Tae-Ho;Cha, Jeong-Won
    • Annual Conference on Human and Language Technology
    • /
    • 2015.10a
    • /
    • pp.11-14
    • /
    • 2015
  • 의미역 결정은 서술어와 논항들 사이의 의미 관계를 결정하는 문제이다. 의미역 결정을 위해 구구조 정보와 의존 구조 정보 등의 다양한 자질에 대한 실험이 있었다. 논항은 구문 구조에서 얻을 수 있는 서술어와 논항 관계에 많은 영향을 받지만 구문 구조가 변경되어도 변하지 않는 논항의 의미로 인해 의미역 결정에 어려운 점이 있다. 본 논문에서는 한국어 의미역 결정 문제를 위해 Korean Propbank 말뭉치와 직접 구축한 의미역 말뭉치를 학습 말뭉치로 사용하였다. 본 논문에서는 이전에 연구된 구문 정보와 그 외의 자질들에 대한 성능을 검증하였다. 본 논문에서 제시하는 자질들의 성능을 검증하기 위해 CRF를 사용하였고, 제시된 새로운 자질을 사용하여 논항의 인식 및 분류에서 76.25%(F1)의 성능을 보였다.

  • PDF

Neural transition-based joint models for dependency Parsing and semantic role labeling of Korean (뉴럴 전이 기반 한국어 의존 파싱 & 의미역 결정 통합 모델)

  • Min, Jin-Woo;Na, Seung-Hoon;Sin, Jong-Hun;Kim, Young-Kil
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.343-346
    • /
    • 2018
  • 기존의 의미역 결정은 먼저 구문 분석을 수행한 후에 해당 구문 분석 결과를 이용해 의미역 결정 테스크에 적용하는 파이프라인 방식으로 진행한다. 이러한 방식의 학습을 두 번 연이어 진행하기 때문에 시간이 오래 걸리고 또한 구문 파싱과 의미 파싱에 대해 서로 영향을 주지 못하는 단점이 존재하였다. 본 논문에서는 의존 파싱과 의미역 파싱을 동시에 진행하도록 전이 액션을 확장한 의존 파싱 & 의미역 결정 통합 모델을 제안하고 실험 결과, Korean Prop Bank 의미역 결정 데이터 셋에서 파이프라인 방식 전이 기반 방식을 사용한 모델보다 논항 인식 및 분류(AIC) 성능에서 F1 기준 0.14% 높은 결과을 보인다.

  • PDF

Korean Semantic Role Labeling using Backward LSTM CRF (Backward LSTM CRF를 이용한 한국어 의미역 결정)

  • Bae, Jangseong;Lee, Changki;Lim, Soojong
    • Annual Conference on Human and Language Technology
    • /
    • 2015.10a
    • /
    • pp.194-197
    • /
    • 2015
  • Long Short-term Memory Network(LSTM) 기반 Recurrent Neural Network(RNN)는 순차 데이터를 모델링 할 수 있는 딥 러닝 모델이다. 기존 RNN의 그래디언트 소멸 문제(vanishing gradient problem)를 해결한 LSTM RNN은 멀리 떨어져 있는 이전의 입력 정보를 볼 수 있다는 장점이 있어 음성 인식 및 필기체 인식 등의 분야에서 좋은 성능을 보이고 있다. 또한 LSTM RNN 모델에 의존성(전이 확률)을 추가한 LSTM CRF모델이 자연어처리의 한 분야인 개체명 인식에서 우수한 성능을 보이고 있다. 본 논문에서는 한국어 문장의 지배소가 문장 후위에 나타나는 점에 착안하여 Backward 방식의 LSTM CRF 모델을 제안하고 이를 한국어 의미역 결정에 적용하여 기존 연구보다 더 높은 성능을 얻을 수 있음을 보인다.

  • PDF

Korean Proposition Bank Guidelines for ExoBrain (ExoBrain을 위한 한국어 의미역 가이드라인 및 말뭉치 구축)

  • Lim, Soojong;Kwon, Minjung;Kim, Junsu;Kim, Hyunki
    • Annual Conference on Human and Language Technology
    • /
    • 2015.10a
    • /
    • pp.250-254
    • /
    • 2015
  • 본 논문은 한국어 의미역을 정의하고, 기계학습에 기반하여 한국어 의미역 인식 기술을 개발할 때 필요한 학습 말뭉치를 구축할 때 지켜야할 가이드라인을 제시하고자 한다. 한국어 의미역 정의는 전세계적으로 널리 쓰이고 있는 Proposition Bank를 따르면서, 한국어의 특성을 반영하였다. 또한 정의된 의미역 및 태깅 가이드라인에 따라 반자동 태깅 툴을 이용하여 말뭉치를 구축하였다.

  • PDF

Korean Semantic Role Labeling Using Domain Adaptation Technique (도메인 적응 기술을 이용한 한국어 의미역 인식)

  • Lim, Soojong;Bae, Yongjin;Kim, Hyunki;Ra, Dongyul
    • Journal of KIISE
    • /
    • v.42 no.4
    • /
    • pp.475-482
    • /
    • 2015
  • Developing a high-performance Semantic Role Labeling (SRL) system for a domain requires manually annotated training data of large size in the same domain. However, such SRL training data of sufficient size is available only for a few domains. Performances of Korean SRL are degraded by almost 15% or more, when it is directly applied to another domain with relatively small training data. This paper proposes two techniques to minimize performance degradation in the domain transfer. First, a domain adaptation algorithm for Korean SRL is proposed which is based on the prior model that is one of domain adaptation paradigms. Secondly, we proposed to use simplified features related to morphological and syntactic tags, when using small-sized target domain data to suppress the problem of data sparseness. Other domain adaptation techniques were experimentally compared to our techniques in this paper, where news and Wikipedia were used as the sources and target domains, respectively. It was observed that the highest performance is achieved when our two techniques were applied together. In our system's performance, F1 score of 64.3% was considered to be 2.4~3.1% higher than the methods from other research.